Mozilla Winds Down DeepSpeech Development, Announces Grant Program

Diterbitkan Ulang Oleh Plato

Followers: 0

Bergabunglah dengan Transform 2021 pada 12-16 Juli ini. Daftar fo r acara AI tahun ini.

Pada tahun 2017, Mozilla diluncurkan Pidato Dalam, sebuah inisiatif yang diinkubasi dalam tim pembelajaran mesin di Mozilla Research yang berfokus pada sumber terbuka model pengenalan suara otomatis. Selama empat tahun berikutnya, tim DeepSpeech merilis versi terbaru dari model yang mampu menyalin ceramah, percakapan telepon, program televisi, acara radio, dan streaming langsung lainnya dengan “akurasi manusia”. Namun dalam beberapa bulan mendatang, Mozilla berencana menghentikan pengembangan dan pemeliharaan DeepSpeech seiring peralihan perusahaan ke peran penasihat, yang akan mencakup peluncuran program hibah untuk mendanai sejumlah inisiatif yang mendemonstrasikan aplikasi untuk DeepSpeech.

DeepSpeech bukan satu-satunya proyek open source dari jenisnya, tapi ini termasuk yang paling matang. Dimodelkan berdasarkan makalah penelitian yang diterbitkan oleh Baidu, model ini adalah arsitektur tingkat karakter yang dapat dilatih secara menyeluruh dan dapat mentranskripsikan audio dalam berbagai bahasa. Salah satu tujuan utama Mozilla adalah mencapai tingkat kesalahan transkripsi kata yang lebih rendah dari 10%, dan versi terbaru dari model bahasa Inggris yang telah dilatih sebelumnya mencapai tujuan tersebut, dengan rata-rata tingkat kesalahan kata sekitar 7.5%.

Mozilla yakin bahwa DeepSpeech telah mencapai titik di mana langkah selanjutnya adalah membangun aplikasi. Untuk mencapai tujuan ini, perusahaan berencana untuk mengalihkan proyek tersebut ke “orang dan organisasi” yang tertarik untuk melanjutkan “eksplorasi berbasis kasus penggunaan.” Mozilla mengatakan mereka menyederhanakan proses integrasi berkelanjutan untuk mengaktifkan dan menjalankan DeepSpeech dengan ketergantungan minimal. Dan ketika perusahaan membersihkan dokumentasi dan bersiap untuk menghentikan pemeliharaan basis kode oleh staf Mozilla, Mozilla mengatakan akan menerbitkan perangkat untuk membantu orang, peneliti, perusahaan, dan pihak berkepentingan lainnya menggunakan DeepSpeech untuk membangun solusi berbasis suara.

DeepSpeech: Sejarah singkat

Pekerjaan Mozilla pada DeepSpeech dimulai pada akhir tahun 2017, dengan tujuan mengembangkan model yang mendapatkan fitur audio — ucapan — sebagai karakter input dan output secara langsung. Tim berharap dapat merancang sistem yang dapat dilatih menggunakan framework TensorFlow Google melalui pembelajaran yang diawasi, di mana model tersebut belajar menyimpulkan pola dari kumpulan data ucapan berlabel.

Model DeepSpeech terbaru berisi puluhan juta parameter, atau bagian model yang dipelajari dari data pelatihan historis. Tim Riset Mozilla mulai melatihnya dengan satu komputer yang menjalankan empat GPU Titan X Pascal tetapi akhirnya memigrasikannya ke dua server dengan masing-masing 8 Titan XP. Pada tahap awal proyek, pelatihan model berperforma tinggi memerlukan waktu sekitar satu minggu.

Pada tahun-tahun berikutnya, Mozilla berupaya memperkecil model DeepSpeech sekaligus meningkatkan kinerjanya dan tetap berada di bawah target tingkat kesalahan 10%. Model berbahasa Inggris menyusut dari 188MB menjadi 47MB dan konsumsi memori turun 22 kali lipat. Di dalam Desember 2019, tim berhasil membuat DeepSpeech berjalan “lebih cepat dari waktu nyata” pada satu inti Raspberry Pi 4.

model DeepSpeech

Mozilla awalnya melatih DeepSpeech menggunakan kumpulan data yang tersedia secara gratis seperti TED-LIUM dan PerpustakaanPidato serta corpora berbayar seperti Nelayan dan Switchboard, tapi ini terbukti tidak cukup. Jadi tim tersebut menghubungi stasiun TV dan radio publik, departemen studi bahasa di universitas, dan pihak lain yang mereka pikir mungkin telah memberi label pada data ucapan untuk dibagikan. Melalui upaya ini, mereka mampu menggandakan jumlah data pelatihan untuk model DeepSpeech berbahasa Inggris lebih dari dua kali lipat.

Terinspirasi oleh upaya pengumpulan data ini, tim Riset Mozilla berkolaborasi dengan tim Inovasi Terbuka Mozilla untuk meluncurkan Suara biasa proyek, yang berupaya mengumpulkan dan memvalidasi kontribusi pidato dari para sukarelawan. Common Voice tidak hanya terdiri dari cuplikan suara tetapi juga metadata yang disumbangkan secara sukarela yang berguna untuk melatih mesin ucapan, seperti usia, jenis kelamin, dan aksen pembicara. Ini juga berkembang dengan menyertakan segmen target kumpulan data untuk tujuan dan kasus penggunaan tertentu, seperti angka “nol” hingga “sembilan” dan kata “ya”, “tidak”, “hei”, dan “Firefox”.

Saat ini, Common Voice adalah salah satu korpora suara domain publik multi-bahasa terbesar di dunia, dengan lebih dari 9,000 jam data suara dalam 60 bahasa berbeda termasuk bahasa yang banyak digunakan dan bahasa yang jarang digunakan, seperti Welsh dan Kinyarwanda. Lebih dari 164,000 orang telah berkontribusi pada kumpulan data hingga saat ini.

Untuk mendukung pertumbuhan proyek tersebut, Nvidia hari ini mengumumkan bahwa mereka akan menginvestasikan $1.5 juta di Common Voice untuk melibatkan lebih banyak komunitas dan sukarelawan serta mendukung perekrutan staf baru. Common Voice sekarang akan beroperasi di bawah payung Mozilla Foundation sebagai bagiannya inisiatif berfokus untuk membuat AI lebih dapat dipercaya.

Program hibah

Saat menghentikan pengembangan DeepSpeech, Mozilla mengatakan program hibahnya yang akan datang akan memprioritaskan proyek-proyek yang berkontribusi pada teknologi inti sekaligus menunjukkan potensinya untuk “memberdayakan dan memperkaya” area yang mungkin tidak memiliki jalur yang memungkinkan menuju interaksi berbasis ucapan. Rincian lebih lanjut akan diumumkan pada bulan Mei, ketika Mozilla menerbitkan pedoman untuk memandu orang-orang tentang cara menggunakan basis kode DeepSpeech sebagai titik awal untuk aplikasi bertenaga suara.

“Kami melihat munculnya mesin pidato open source yang matang. Namun, masih ada kesenjangan penting dalam ekosistem ini: mesin ucapan – terbuka dan tertutup – tidak berfungsi untuk sebagian besar bahasa, aksen, dan pola bicara di dunia,” Mark Surman, direktur eksekutif Mozilla Foundation, mengatakan kepada VentureBeat melalui email. “Bagi miliaran pengguna internet, teknologi yang mendukung suara tidak dapat digunakan. Mozilla telah memutuskan untuk memfokuskan upayanya pada hal ini, menjadikan teknologi suara inklusif dan mudah diakses. Itu berarti berinvestasi pada kumpulan data suara, bukan mesin ucapan kita sendiri. Kami menggandakan Common Voice, kumpulan data sumber terbuka yang berfokus pada bahasa dan aksen yang saat ini tidak terwakili dalam ekosistem teknologi suara. Data Common Voice dapat digunakan untuk mendukung kerangka kerja [percakapan terbuka]… dan pada gilirannya memungkinkan lebih banyak orang di lebih banyak tempat untuk mengakses teknologi suara. Kami [juga] bekerja sama dengan Nvidia untuk menyelaraskan kedua sisi persamaan teknologi suara yang inklusif ini.”

VentureBeat

Misi VentureBeat adalah menjadi alun-alun kota digital bagi para pembuat keputusan teknis untuk mendapatkan pengetahuan tentang teknologi transformatif dan bertransaksi. Situs kami memberikan informasi penting tentang teknologi data dan strategi untuk memandu Anda saat Anda memimpin organisasi. Kami mengundang Anda untuk menjadi anggota komunitas kami, untuk mengakses:

informasi terkini tentang topik yang menarik bagi Anda
buletin kami
konten pemimpin pemikiran yang terjaga keamanannya dan akses diskon ke acara berharga kami, seperti Transformasi 2021: Belajarlah lagi
fitur jaringan, dan banyak lagi

Menjadi anggota

Sumber: https://venturebeat.com/2021/04/12/mozilla-winds-down-deepspeech-development-announces-grant-program/

Stempel Waktu: 12 April, 2021