Diterbitkan Ulang Oleh Plato

Followers: 0

Kumpulan Data Sumber Terbuka untuk Computer Vision

Tags: Visi Komputer, Dataset, Open Source

Akses ke set data skala besar yang berkualitas tinggi, bebas noise, sangat penting untuk melatih model jaringan saraf dalam yang kompleks untuk aplikasi visi komputer. Banyak kumpulan data sumber terbuka dikembangkan untuk digunakan dalam klasifikasi gambar, estimasi pose, teks gambar, mengemudi otonom, dan segmentasi objek. Kumpulan data ini harus dipasangkan dengan perangkat keras yang sesuai dan strategi pembandingan untuk mengoptimalkan kinerja.

By Kevin Vu, Exxact Corp

komentar

Visi Komputer (CV) adalah salah satu subbidang paling menarik dalam domain Artificial Intelligence (AI) dan Machine Learning (ML). Ini adalah komponen utama untuk banyak saluran AI/ML modern, dan mengubah hampir setiap industri, memungkinkan organisasi untuk merevolusi cara kerja mesin dan sistem bisnis.

Secara akademis, CV telah menjadi bidang ilmu komputer yang mapan selama beberapa dekade, dan selama bertahun-tahun, banyak penelitian telah dilakukan di bidang ini untuk membuatnya lebih baik. Namun, penggunaan jaringan saraf dalam baru-baru ini merevolusi bidang ini dan memberinya bahan bakar baru untuk mempercepat pertumbuhan.

Ada beragam area aplikasi untuk visi komputer, seperti:

Mengemudi otonom
Analisis dan diagnostik pencitraan medis
Deteksi dan pemahaman pemandangan
Pembuatan teks gambar otomatis
Penandaan foto/wajah di media sosial
Keamanan rumah
Identifikasi cacat di industri manufaktur dan kontrol kualitas

Dalam artikel ini, kami membahas beberapa kumpulan data paling populer dan efektif yang digunakan dalam domain Deep Learning (DL) untuk melatih sistem ML canggih untuk tugas CV.

Pilih Kumpulan Data Sumber Terbuka yang Tepat dengan Hati-hati

Mesin pelatihan pada file gambar dan video adalah operasi intensif data yang serius. File gambar tunggal adalah entitas digital multi-dimensi, multi-megabita yang hanya berisi sebagian kecil 'wawasan' dalam konteks tugas 'analisis gambar cerdas' secara keseluruhan.

Sebaliknya, tabel data penjualan ritel berukuran serupa dapat memberikan lebih banyak wawasan tentang algoritme ML dengan pengeluaran yang sama untuk perangkat keras komputasi. Fakta ini patut diingat saat berbicara tentang skala data dan komputasi yang diperlukan untuk saluran pipa CV modern.

Akibatnya, di hampir semua kasus, ratusan (atau bahkan ribuan) gambar tidak cukup untuk melatih model ML berkualitas tinggi untuk tugas CV. Hampir semua sistem CV modern menggunakan arsitektur model DL yang kompleks, dan mereka akan tetap kekurangan jika tidak dilengkapi dengan cukup banyak contoh pelatihan yang dipilih dengan cermat, yaitu gambar berlabel. Oleh karena itu, menjadi tren yang sangat umum bahwa sistem DL yang kuat, dapat digeneralisasikan, dan berkualitas produksi sering kali membutuhkan jutaan gambar yang dipilih dengan cermat untuk dilatih.

Selain itu, untuk analitik video, tugas memilih dan menyusun kumpulan data pelatihan bisa lebih rumit mengingat sifat dinamis dari file atau bingkai video yang diperoleh dari banyak aliran video.

Di sini, kami mencantumkan beberapa yang paling populer (terdiri dari gambar statis dan klip video).

Kumpulan Data Sumber Terbuka Populer untuk Model Computer Vision

Tidak semua kumpulan data cocok untuk semua jenis tugas CV. Tugas CV umum meliputi:

Klasifikasi gambar
Deteksi objek
Segmentasi objek
Anotasi multi-objek
Teks gambar
Estimasi pose manusia
Analisis bingkai video

Kami menampilkan daftar kumpulan data sumber terbuka populer yang mencakup sebagian besar kategori ini.

ImageNet (paling terkenal)

IMAGEnet adalah upaya penelitian berkelanjutan untuk menyediakan basis data gambar yang mudah diakses bagi para peneliti di seluruh dunia. Itu, mungkin, kumpulan data gambar paling terkenal di luar sana dan dikutip sebagai standar emas oleh para peneliti dan pelajar.

Proyek ini terinspirasi oleh sentimen yang terus berkembang di bidang penelitian citra dan visi—kebutuhan akan lebih banyak data. Ini diatur menurut hierarki WordNet. Setiap konsep yang bermakna di WordNet, mungkin dijelaskan dengan beberapa kata atau frasa kata, disebut "set sinonim" atau "synset." Ada lebih dari 100,000 synsets di WordNet. Demikian pula, ImageNet bertujuan untuk menyediakan rata-rata 1000 gambar untuk mengilustrasikan setiap synset.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) adalah kompetisi tahunan global yang mengevaluasi algoritme (yang diajukan oleh tim dari universitas atau grup riset perusahaan) untuk deteksi objek dan klasifikasi gambar dalam skala besar. Salah satu motivasi tingkat tinggi adalah untuk memungkinkan peneliti membandingkan kemajuan dalam deteksi di berbagai objek yang lebih luas — memanfaatkan upaya pelabelan yang cukup mahal. Motivasi lain adalah untuk mengukur kemajuan visi komputer untuk pengindeksan gambar skala besar untuk pengambilan dan anotasi. Ini adalah salah satu kompetisi tahunan yang paling banyak dibicarakan di seluruh bidang pembelajaran mesin.

CIFAR-10 (untuk pemula)

Ini adalah sebuah kumpulan gambar yang biasa digunakan untuk melatih algoritma machine learning dan computer vision oleh para pemula di lapangan. Ini juga merupakan salah satu kumpulan data paling populer untuk penelitian pembelajaran mesin untuk perbandingan cepat dari algoritma karena menangkap kelemahan dan kekuatan arsitektur tertentu tanpa menempatkan beban komputasi yang tidak masuk akal pada pelatihan dan proses penyetelan hyperparameter.

Ini berisi 60,000, 32x32 gambar berwarna dalam 10 kelas yang berbeda. Kelas mewakili pesawat terbang, mobil, burung, kucing, rusa, anjing, katak, kuda, kapal, dan truk.

MegaFace dan LFW (Pengenalan wajah)

Wajah Berlabel di Alam Liar (LFW) adalah database foto wajah yang dirancang untuk mempelajari masalah pengenalan wajah tanpa batas. Ini berisi 13,233 gambar dari 5,749 orang, tergores dan terdeteksi dari web. Sebagai tantangan tambahan, peneliti ML dapat menggunakan gambar untuk 1,680 orang yang memiliki dua atau lebih foto berbeda dalam kumpulan data. Akibatnya, ini adalah tolok ukur publik untuk verifikasi wajah, juga dikenal sebagai pencocokan pasangan (memerlukan setidaknya dua gambar dari orang yang sama).

Wajah Mega adalah set data pelatihan pengenalan wajah sumber terbuka skala besar yang berfungsi sebagai salah satu tolok ukur terpenting untuk masalah pengenalan wajah komersial. Ini mencakup 4,753,320 wajah dari 672,057 identitas dan sangat cocok untuk pelatihan arsitektur DL besar. Semua gambar diperoleh dari Flickr (dataset Yahoo) dan dilisensikan di bawah Creative Commons.

IMDB-Wiki (identifikasi gender dan usia)

IMDB-Wiki adalah salah satu dari kumpulan data terbesar dan bersumber terbuka gambar wajah dengan label jenis kelamin dan usia untuk pelatihan. Total ada 523,051 gambar wajah dalam dataset ini, dimana 460,723 gambar wajah diperoleh dari 20,284 selebriti dari IMDB dan 62,328 dari Wikipedia.

MS Coco (deteksi dan segmentasi objek)

COCO atau Objek Umum dalam Konteks adalah deteksi objek skala besar, segmentasi, dan dataset teks. Dataset berisi foto dari 91 jenis objek yang mudah dikenali dan memiliki total 2.5 juta instance berlabel dalam 328k gambar. Selanjutnya, itu menyediakan sumber daya untuk tugas CV yang lebih kompleks seperti pelabelan multi-objek, anotasi topeng segmentasi, teks gambar, dan deteksi titik kunci. Ini didukung dengan baik oleh API intuitif yang membantu memuat, menguraikan, dan memvisualisasikan anotasi di COCO. API mendukung beberapa format anotasi.

MPII Human Pose (estimasi pose)

Dataset ini digunakan untuk evaluasi estimasi pose manusia yang diartikulasikan. Ini mencakup sekitar 25 ribu gambar yang berisi lebih dari 40 ribu orang dengan sendi tubuh beranotasi. Di sini, setiap gambar diekstraksi dari video YouTube dan dilengkapi dengan bingkai tanpa anotasi sebelum dan sesudahnya. Secara keseluruhan, kumpulan data mencakup 410 aktivitas manusia, dan setiap gambar dilengkapi dengan label aktivitas.

Flickr-30k (teks gambar)

Ini adalah korpus keterangan gambar yang terdiri dari 158,915 keterangan sumber yang menggambarkan 31,783 gambar. Ini adalah perpanjangan dari sebelumnya Kumpulan Data Flickr 8k. Gambar dan keterangan baru berfokus pada orang-orang yang terlibat dalam aktivitas dan acara sehari-hari.

20BN-SESUATU-SESUATU (video klip aksi manusia)

Kumpulan data ini adalah banyak koleksi klip video berlabel padat pertunjukan itu manusia melakukan tindakan dasar yang telah ditentukan dengan objek sehari-hari. Itu dibuat oleh sejumlah besar pekerja kerumunan, yang memungkinkan model ML mengembangkan pemahaman terperinci tentang tindakan dasar yang terjadi di dunia fisik.

Berikut adalah subset dari aktivitas manusia umum yang ditangkap dalam dataset ini:

Barkley DeepDrive (untuk pelatihan kendaraan otonom)

Grafik Kumpulan data Berkeley DeepDrive oleh UC Berkeley terdiri lebih dari 100 ribu urutan video dengan beragam jenis anotasi, termasuk kotak pembatas objek, area yang dapat dilalui, penandaan tingkat gambar, penandaan jalur, dan segmentasi instans full-frame. Selanjutnya, fitur kumpulan data keragaman yang luas dalam mewakili berbagai kondisi geografis, lingkungan, dan cuaca.

Ini sangat berguna untuk melatih model tangguh untuk kendaraan otonom sehingga mereka tidak akan terkejut dengan kondisi jalan dan mengemudi yang selalu berubah.

Perangkat Keras & Pembandingan yang Tepat untuk Kumpulan Data Ini

Tak perlu dikatakan, hanya memiliki kumpulan data ini tidak cukup untuk membangun sistem ML atau solusi bisnis berkualitas tinggi. Perpaduan antara pilihan yang tepat dari kumpulan data, perangkat keras pelatihan, dan penyetelan serta strategi pembandingan yang cerdas diperlukan untuk mendapatkan solusi optimal untuk masalah akademis atau bisnis apa pun.

Itulah mengapa GPU berkinerja tinggi hampir selalu dipasangkan dengan kumpulan data ini untuk memberikan kinerja yang diinginkan.

GPU dikembangkan (terutama untuk industri video game) untuk menangani a tingkat besar komputasi paralel menggunakan ribuan core komputasi kecil. Mereka juga menampilkan bandwidth memori besar untuk menangani aliran data yang cepat (unit pemrosesan untuk menyimpan cache ke memori utama yang lebih lambat dan kembali) yang diperlukan untuk perhitungan ini ketika jaringan saraf dilatih melalui ratusan zaman. Hal ini membuat mereka perangkat keras komoditas yang ideal untuk menangani beban komputasi tugas visi komputer.

Namun, ada banyak pilihan untuk GPU di pasaran, dan itu tentu saja bisa membuat kebanyakan pengguna kewalahan. Ada beberapa strategi pembandingan yang baik yang telah diterbitkan selama bertahun-tahun untuk memandu calon pembeli dalam hal ini. Latihan pembandingan yang baik harus mempertimbangkan berbagai jenis (a) arsitektur jaringan saraf dalam (DNN), (b) GPU, dan (c) kumpulan data yang banyak digunakan (seperti yang telah kita bahas di bagian sebelumnya).

Sebagai contoh, ini artikel yang sangat bagus mempertimbangkan hal-hal berikut:

Arsitektur: ResNet-152, ResNet-101, ResNet-50, dan ResNet-18
GPU: EVGA (non-blower) RTX 2080 ti, GIGABYTE (peniup) RTX 2080 ti, dan NVIDIA TITAN RTX
Kumpulan data: IMAGEnet, CIFAR-100, dan CIFAR-10.

Selain itu, beberapa dimensi kinerja harus dipertimbangkan untuk tolok ukur yang baik.

Dimensi Kinerja yang Perlu Dipertimbangkan

Ada tiga indeks utama:

WAKTU BATCH KEDUA: Saatnya menyelesaikan gelombang pelatihan kedua. Angka ini mengukur kinerja sebelum GPU berjalan cukup lama untuk memanas. Secara efektif, tidak pelambatan termal.
RATA-RATA-BATCH-TIME: Rata-rata waktu batch setelah 1 epoch di ImageNet atau 15 epoch di CIFAR. Tindakan ini memperhitungkan pelambatan termal.
SIMULTAN-RATA-RATA-BATCH-TIME: Waktu batch rata-rata setelah 1 epoch di ImageNet atau 15 epoch di CIFAR dengan semua GPU berjalan secara bersamaan. Ini mengukur efek pelambatan termal dalam sistem karena panas gabungan yang dilepaskan oleh semua GPU.

Original. Diposting ulang dengan izin.

Terkait:

= Previous post

Next post =>

Cerita Top Melewati 30 Hari

Paling Populer
6 Kursus Online Ilmu Data Teratas di tahun 2021 Saran untuk Mempelajari Ilmu Data dari Direktur Riset Google 3 Alasan Mengapa Anda Harus Menggunakan Model Regresi Linier Daripada Jaringan Neural Alternatif Sumber Terbuka GitHub Copilot Pertanyaan dan Jawaban Wawancara Ilmu Data Paling Umum

Paling Banyak Dibagikan
Perbedaan Antara Ilmuwan Data dan Insinyur ML Cara Menanyakan Kerangka Data Pandas Anda Mengapa dan bagaimana Anda harus mempelajari “Ilmu Data Produktif”? 3 perubahan pola pikir untuk menjadi analis yang lebih baik Tidak Hanya untuk Pembelajaran Mendalam: Bagaimana GPU Mempercepat Ilmu Data & Analisis Data