Được xuất bản lại bởi Plato

Người theo dõi: 0

Bộ dữ liệu nguồn mở cho thị giác máy tính

tags: Tầm nhìn máy tính, Bộ dữ liệu, Mã nguồn mở

Truy cập vào bộ dữ liệu quy mô lớn, không nhiễu, chất lượng cao là rất quan trọng để đào tạo các mô hình mạng thần kinh sâu phức tạp cho các ứng dụng thị giác máy tính. Nhiều bộ dữ liệu mã nguồn mở được phát triển để sử dụng trong phân loại ảnh, ước tính tư thế, chú thích ảnh, lái xe tự động và phân đoạn đối tượng. Các bộ dữ liệu này phải được ghép nối với phần cứng và chiến lược đo điểm chuẩn thích hợp để tối ưu hóa hiệu suất.

By Kevin Vũ, Exact Corp.

Bình luận

Tầm nhìn máy tính (CV) là một trong những trường con thú vị nhất trong miền Trí tuệ nhân tạo (AI) và Học máy (ML). Nó là thành phần chính của nhiều quy trình AI/ML hiện đại và nó đang biến đổi hầu hết mọi ngành công nghiệp, cho phép các tổ chức cách mạng hóa cách thức hoạt động của máy móc và hệ thống kinh doanh.

Về mặt học thuật, CV đã là một lĩnh vực khoa học máy tính nổi tiếng trong nhiều thập kỷ, và trong những năm qua, rất nhiều nghiên cứu đã đi vào lĩnh vực này để làm cho nó trở nên tốt hơn. Tuy nhiên, sử dụng mạng nơ ron sâu gần đây đã tạo ra một cuộc cách mạng trong lĩnh vực này và cung cấp cho nó nhiên liệu mới để tăng trưởng nhanh.

Có một loạt các lĩnh vực ứng dụng cho thị giác máy tính, chẳng hạn như:

Lái xe tự động
Phân tích và chẩn đoán hình ảnh y tế
Phát hiện và hiểu cảnh
Tạo phụ đề hình ảnh tự động
Gắn thẻ ảnh / khuôn mặt trên mạng xã hội
An ninh gia đình
Xác định khuyết tật trong các ngành sản xuất và kiểm soát chất lượng

Trong bài viết này, chúng tôi thảo luận về một số bộ dữ liệu phổ biến và hiệu quả nhất được sử dụng trong lĩnh vực Học sâu (DL) để đào tạo các hệ thống ML hiện đại cho các nhiệm vụ CV.

Chọn Tập dữ liệu nguồn mở phù hợp một cách cẩn thận

Máy đào tạo trên các tệp hình ảnh và video là một hoạt động sử dụng nhiều dữ liệu nghiêm trọng. Một tệp hình ảnh đơn lẻ là một thực thể kỹ thuật số đa chiều, nhiều megabyte chỉ chứa một phần nhỏ 'thông tin chi tiết' trong bối cảnh của toàn bộ nhiệm vụ 'phân tích hình ảnh thông minh'.

Ngược lại, một bảng dữ liệu doanh số bán lẻ có kích thước tương tự có thể cung cấp thông tin chi tiết hơn nhiều về thuật toán ML với cùng chi phí cho phần cứng tính toán. Thực tế này đáng ghi nhớ khi nói về quy mô dữ liệu và tính toán cần thiết cho các đường ống CV hiện đại.

Do đó, trong hầu hết các trường hợp, hàng trăm (hoặc thậm chí hàng nghìn) hình ảnh không đủ để đào tạo mô hình ML chất lượng cao cho các nhiệm vụ CV. Hầu hết tất cả các hệ thống CV hiện đại đều sử dụng kiến trúc mô hình DL phức tạp, và chúng sẽ vẫn chưa được trang bị đầy đủ nếu không được cung cấp đủ số lượng các ví dụ đào tạo được lựa chọn cẩn thận, tức là các hình ảnh có nhãn. Do đó, nó đang trở thành một xu hướng chung rất phổ biến Hệ thống DL mạnh mẽ, có thể tổng quát hóa, chất lượng sản xuất thường yêu cầu hàng triệu hình ảnh được lựa chọn cẩn thận để đào tạo.

Ngoài ra, đối với phân tích video, nhiệm vụ chọn và biên dịch tập dữ liệu đào tạo có thể phức tạp hơn do tính chất động của các tệp video hoặc khung thu được từ vô số luồng video.

Ở đây, chúng tôi liệt kê một số trong số những cái phổ biến nhất (bao gồm cả hình ảnh tĩnh và video clip).

Bộ dữ liệu nguồn mở phổ biến cho các mô hình thị giác máy tính

Không phải tất cả các bộ dữ liệu đều phù hợp như nhau cho tất cả các loại nhiệm vụ CV. Các nhiệm vụ CV phổ biến bao gồm:

Phân loại hình ảnh
Phát hiện đối tượng
Phân đoạn đối tượng
Chú thích nhiều đối tượng
Chú thích hình ảnh
Ước tính tư thế con người
Phân tích khung hình video

Chúng tôi hiển thị danh sách các bộ dữ liệu nguồn mở, phổ biến bao gồm hầu hết các danh mục này.

ImageNet (nổi tiếng nhất)

IMAGEnet là một nỗ lực nghiên cứu liên tục nhằm cung cấp cho các nhà nghiên cứu trên khắp thế giới một cơ sở dữ liệu hình ảnh dễ dàng truy cập. Có lẽ nó là tập dữ liệu hình ảnh nổi tiếng nhất ngoài kia và được các nhà nghiên cứu cũng như người học coi là tiêu chuẩn vàng.

Dự án này được lấy cảm hứng từ niềm tin ngày càng tăng trong lĩnh vực nghiên cứu hình ảnh và tầm nhìn – nhu cầu về nhiều dữ liệu hơn. Nó được tổ chức theo hệ thống phân cấp WordNet. Mỗi khái niệm có ý nghĩa trong WordNet, có thể được mô tả bằng nhiều từ hoặc cụm từ, được gọi là “tập hợp từ đồng nghĩa” hoặc “tập hợp từ đồng nghĩa”. Có hơn 100,000 bộ đồng nghĩa trong WordNet. Tương tự, ImageNet đặt mục tiêu cung cấp trung bình 1000 hình ảnh để minh họa cho mỗi tập hợp.

Thử thách nhận dạng hình ảnh quy mô lớn của ImageNet (ILSVRC) là cuộc thi toàn cầu thường niên nhằm đánh giá các thuật toán (được gửi bởi các nhóm từ các nhóm nghiên cứu của trường đại học hoặc công ty) để phát hiện đối tượng và phân loại hình ảnh ở quy mô lớn. Một động lực cấp cao là cho phép các nhà nghiên cứu so sánh tiến trình phát hiện trên nhiều đối tượng khác nhau - tận dụng nỗ lực ghi nhãn khá tốn kém. Một động lực khác là đo lường sự tiến bộ của thị giác máy tính để lập chỉ mục hình ảnh quy mô lớn để truy xuất và chú thích. Đây là một trong những cuộc thi thường niên được nhắc đến nhiều nhất trong toàn bộ lĩnh vực máy học.

CIFAR-10 (dành cho người mới bắt đầu)

Đây là một bộ sưu tập hình ảnh thường được sử dụng để đào tạo thuật toán máy học và thị giác máy tính cho những người mới bắt đầu trong lĩnh vực này. Nó cũng là một trong những bộ dữ liệu phổ biến nhất để nghiên cứu máy học cho so sánh nhanh các thuật toán vì nó nắm bắt được điểm yếu và điểm mạnh của một kiến trúc cụ thể mà không đặt gánh nặng tính toán bất hợp lý lên quá trình đào tạo và điều chỉnh siêu tham số.

Nó chứa 60,000, 32 × 32 hình ảnh màu trong 10 lớp khác nhau. Các lớp đại diện cho máy bay, ô tô, chim, mèo, hươu, nai, chó, ếch, ngựa, tàu và xe tải.

MegaFace và LFW (Nhận dạng khuôn mặt)

Các khuôn mặt được gắn nhãn trong tự nhiên (LFW) là một cơ sở dữ liệu về các bức ảnh khuôn mặt được thiết kế cho nghiên cứu vấn đề nhận dạng khuôn mặt không bị hạn chế. Nó chứa 13,233 hình ảnh của 5,749 người, được thu thập và phát hiện từ web. Như một thách thức bổ sung, các nhà nghiên cứu ML có thể sử dụng hình ảnh cho 1,680 người có hai hoặc nhiều bức ảnh riêng biệt trong tập dữ liệu. Do đó, nó là tiêu chuẩn công khai để xác minh khuôn mặt, còn được gọi là đối sánh cặp (yêu cầu ít nhất hai hình ảnh của cùng một người).

MegaFace là một tập dữ liệu đào tạo nhận dạng khuôn mặt mã nguồn mở quy mô lớn, đóng vai trò là một trong những tiêu chuẩn quan trọng nhất cho vấn đề nhận dạng khuôn mặt thương mại. Nó bao gồm 4,753,320 khuôn mặt của 672,057 danh tính và rất phù hợp cho việc đào tạo kiến trúc DL lớn. Tất cả hình ảnh được lấy từ Flickr (bộ dữ liệu của Yahoo) và được cấp phép theo Creative Commons.

IMDB-Wiki (nhận dạng giới tính và tuổi)

IMDB-Wiki là một trong những bộ dữ liệu nguồn mở và lớn nhất hình ảnh khuôn mặt với nhãn giới tính và độ tuổi để đào tạo. Tổng cộng, có 523,051 hình ảnh khuôn mặt trong tập dữ liệu này, trong đó 460,723 hình ảnh khuôn mặt được lấy từ 20,284 người nổi tiếng từ IMDB và 62,328 từ Wikipedia.

MS Coco (phát hiện và phân đoạn đối tượng)

COCO hoặc Các đối tượng phổ biến trong COntext là tập dữ liệu phát hiện, phân đoạn và phụ đề đối tượng quy mô lớn. Bộ dữ liệu chứa ảnh của 91 loại đối tượng có thể dễ dàng nhận ra và có tổng cộng 2.5 triệu đối tượng được gắn nhãn trong 328k ảnh. Hơn nữa, nó cung cấp tài nguyên cho các tác vụ CV phức tạp hơn như gắn nhãn nhiều đối tượng, chú thích mặt nạ phân đoạn, chú thích hình ảnh và phát hiện điểm chính. Nó được hỗ trợ tốt bởi một API trực quan hỗ trợ tải, phân tích cú pháp và hiển thị các chú thích trong COCO. API hỗ trợ nhiều định dạng chú thích.

MPII Tư thế người (ước tính tư thế)

Bộ dữ liệu này được sử dụng để đánh giá ước tính tư thế con người khớp nối. Nó bao gồm khoảng 25 nghìn hình ảnh chứa hơn 40 nghìn người với các khớp cơ thể được chú thích. Ở đây, mỗi hình ảnh được trích xuất từ một video YouTube và được cung cấp các khung không có chú thích trước và sau. Nhìn chung, tập dữ liệu bao gồm 410 hoạt động của con người và mỗi hình ảnh được cung cấp một nhãn hoạt động.

Flickr-30k (chú thích hình ảnh)

Đây là một kho tài liệu phụ đề hình ảnh bao gồm 158,915 phụ đề có nguồn gốc từ đám đông mô tả 31,783 hình ảnh. Đây là phần mở rộng của phần trước Bộ dữ liệu Flickr 8k. Hình ảnh và chú thích mới tập trung vào những người tham gia vào các hoạt động và sự kiện hàng ngày.

20BN-SOMETHING-SOMETHING (video clip về hành động của con người)

Tập dữ liệu này là một bộ sưu tập lớn các video clip được gắn nhãn dày đặc Như thế đấy con người thực hiện các hành động cơ bản được xác định trước với các đồ vật hàng ngày. Nó được tạo ra bởi một số lượng lớn nhân viên đám đông, cho phép các mô hình ML phát triển sự hiểu biết chi tiết về các hành động cơ bản xảy ra trong thế giới vật chất.

Dưới đây là một tập hợp con các hoạt động phổ biến của con người được ghi lại trong tập dữ liệu này:

Barkley DeepDrive (để đào tạo xe tự hành)

Sản phẩm Tập dữ liệu Berkeley DeepDrive của UC Berkeley bao gồm hơn 100K chuỗi video với các loại chú thích khác nhau, bao gồm các hộp giới hạn đối tượng, các khu vực có thể điều khiển, gắn thẻ mức hình ảnh, đánh dấu làn đường và phân đoạn phiên bản toàn khung hình. Hơn nữa, các tính năng của tập dữ liệu đa dạng trong việc thể hiện các điều kiện địa lý, môi trường và thời tiết khác nhau.

Điều này rất hữu ích cho việc đào tạo các mô hình mạnh mẽ cho xe tự hành để họ ít bị bất ngờ trước các điều kiện đường và lái xe luôn thay đổi.

Phần cứng & Điểm chuẩn phù hợp cho các Bộ dữ liệu này

Không cần phải nói, chỉ có những bộ dữ liệu này là không đủ để xây dựng một hệ thống ML chất lượng cao hoặc giải pháp kinh doanh. Cần có sự kết hợp giữa lựa chọn phù hợp của tập dữ liệu, phần cứng đào tạo và chiến lược điều chỉnh và điểm chuẩn thông minh để có được giải pháp tối ưu cho bất kỳ vấn đề học tập hoặc kinh doanh nào.

Đó là lý do tại sao GPU hiệu suất cao hầu như luôn được ghép nối với các tập dữ liệu này để mang lại hiệu suất mong muốn.

GPU đã được phát triển (chủ yếu phục vụ cho ngành công nghiệp trò chơi điện tử) để xử lý mức độ lớn của các phép tính song song sử dụng hàng nghìn lõi điện toán nhỏ. Họ cũng có tính năng băng thông bộ nhớ lớn để đối phó với luồng dữ liệu nhanh (đơn vị xử lý để lưu vào bộ nhớ chính chậm hơn và trở lại) cần thiết cho các tính toán này khi mạng nơ-ron đang huấn luyện qua hàng trăm kỷ nguyên. Điều này làm cho họ trở thành phần cứng hàng hóa lý tưởng để đối phó với khối lượng tính toán của các tác vụ thị giác máy tính.

Tuy nhiên, có rất nhiều sự lựa chọn cho GPU trên thị trường và điều đó chắc chắn có thể khiến người dùng bình thường choáng ngợp. Có một số chiến lược đo điểm chuẩn tốt đã được xuất bản trong nhiều năm để hướng dẫn người mua tiềm năng về vấn đề này. Một bài tập đo điểm chuẩn tốt phải xem xét nhiều loại kiến trúc (a) mạng nơ ron sâu (DNN), (b) GPU và (c) bộ dữ liệu được sử dụng rộng rãi (như những bộ mà chúng ta đã thảo luận trong phần trước).

Ví dụ, cái này bài viết xuất sắc xem xét những điều sau:

Kiến trúc: ResNet-152, ResNet-101, ResNet-50 và ResNet-18
GPU: EVGA (không quạt gió) RTX 2080 ti, GIGABYTE (quạt gió) RTX 2080 tivà NVIDIA TITAN RTX
Bộ dữ liệu: IMAGEnet, CIFAR-100và CIFAR-10.

Ngoài ra, nhiều thứ nguyên của hiệu suất phải được xem xét để có điểm chuẩn tốt.

Các thứ nguyên hiệu suất cần xem xét

Có ba chỉ số chính:

THỨ HAI-TRẬN-THỜI GIAN: Thời gian kết thúc đợt đào tạo thứ hai. Con số này đo hiệu suất trước khi GPU chạy đủ lâu để nóng lên. Hiệu quả, không điều tiết nhiệt.
TRUNG BÌNH-BATCH-TIME: Thời gian hàng loạt trung bình sau 1 kỷ nguyên trong ImageNet hoặc 15 kỷ nguyên trong CIFAR. Biện pháp này có tính đến điều tiết nhiệt.
ĐƠN GIẢN-AVERAGE-BATCH-TIME: Thời gian hàng loạt trung bình sau 1 kỷ nguyên trong ImageNet hoặc 15 kỷ nguyên trong CIFAR với tất cả các GPU chạy đồng thời. Điều này đo lường hiệu quả của việc điều chỉnh nhiệt trong hệ thống do nhiệt tổng hợp do tất cả các GPU tỏa ra.

Nguyên. Đăng lại với sự cho phép.

Liên quan: