Google Researchers Boost Speech Recognition Accuracy With More Datasets

Diterbitkan Ulang Oleh Plato

Followers: 0

Bergabunglah dengan Transform 2021 pada 12-16 Juli ini. Daftar fo r acara AI tahun ini.

Bagaimana jika kunci untuk meningkatkan akurasi pengenalan ucapan adalah dengan menggabungkan semua kumpulan data ucapan yang tersedia untuk melatih satu model AI yang besar? Itulah hipotesis di balik penelitian terbaru yang diterbitkan oleh tim peneliti yang berafiliasi dengan Google Research dan Google Brain. Mereka mengklaim model AI diberi nama PidatoRebusan yang dilatih dalam berbagai korpora ucapan mencapai hasil yang canggih atau hampir canggih pada berbagai tolok ukur pengenalan ucapan.

Melatih model dengan data yang lebih banyak cenderung sulit, karena pengumpulan dan anotasi data baru memerlukan biaya yang mahal — terutama dalam domain ucapan. Selain itu, melatih model berukuran besar memerlukan biaya yang mahal dan tidak praktis bagi banyak anggota komunitas AI.

Solusi kumpulan data

Untuk mencari solusi, para peneliti Google menggabungkan semua data pengenalan ucapan berlabel dan tidak berlabel yang dikurasi oleh komunitas selama bertahun-tahun. Mereka memanfaatkan AMI, kumpulan data yang berisi sekitar 100 jam rekaman rapat, serta corpora yang mencakup Switchboard (sekitar 2,000 jam panggilan telepon), Broadcast News (50 jam berita televisi), Librispeech (960 jam buku audio), dan crowdsourced Mozilla Suara biasa. Kumpulan data gabungan mereka memiliki lebih dari 5,000 jam bicara — tidak ada satupun yang disesuaikan dari bentuk aslinya.

Dengan kumpulan data yang dikumpulkan, para peneliti menggunakan Google Cloud TPU untuk melatih SpeechStew, sehingga menghasilkan model dengan lebih dari 100 juta parameter. Dalam pembelajaran mesin, parameter adalah properti data yang dipelajari model selama proses pelatihan. Para peneliti juga melatih model dengan 1 miliar parameter, tetapi model tersebut mengalami penurunan performa.

Setelah tim memiliki model SpeechStew untuk tujuan umum, mereka mengujinya pada a sejumlah tolok ukur dan menemukan bahwa hal ini tidak hanya mengungguli model yang dikembangkan sebelumnya namun juga menunjukkan kemampuan untuk beradaptasi terhadap tugas-tugas baru yang menantang. Dengan memanfaatkan Chime-6, kumpulan data percakapan jarak jauh di rumah berdurasi 40 jam yang direkam oleh mikrofon, para peneliti menyempurnakan SpeechStew untuk mencapai akurasi yang sejalan dengan model yang jauh lebih canggih.

Pembelajaran transfer berarti mentransfer pengetahuan dari satu domain ke domain lain dengan data yang lebih sedikit, dan hal ini menunjukkan hasil yang menjanjikan di banyak subbidang AI. Dengan mengambil model seperti SpeechStew yang dirancang untuk memahami ucapan umum dan menyempurnakannya, AI dapat, misalnya, memahami ucapan dalam aksen dan lingkungan yang berbeda.

Aplikasi masa depan

Ketika VentureBeat bertanya melalui email bagaimana model ucapan seperti SpeechStew dapat digunakan dalam produksi – seperti pada perangkat konsumen atau API cloud – para peneliti menolak untuk berspekulasi. Namun mereka membayangkan model tersebut berfungsi sebagai representasi tujuan umum yang dapat ditransfer ke sejumlah tugas hilir pengenalan suara.

“Teknik sederhana untuk menyempurnakan model tujuan umum ke tugas-tugas pengenalan suara hilir yang baru ini sederhana, praktis, namun sangat efektif,” kata para peneliti. “Penting untuk disadari bahwa distribusi sumber data lain tidak sepenuhnya sesuai dengan kumpulan data yang diinginkan. Namun selama ada representasi umum yang diperlukan untuk menyelesaikan kedua tugas tersebut, kami berharap dapat mencapai hasil yang lebih baik dengan menggabungkan kedua kumpulan data.”

VentureBeat

Misi VentureBeat adalah menjadi alun-alun kota digital bagi para pembuat keputusan teknis untuk mendapatkan pengetahuan tentang teknologi transformatif dan bertransaksi. Situs kami memberikan informasi penting tentang teknologi data dan strategi untuk memandu Anda saat Anda memimpin organisasi. Kami mengundang Anda untuk menjadi anggota komunitas kami, untuk mengakses:

informasi terkini tentang topik yang menarik bagi Anda
buletin kami
konten pemimpin pemikiran yang terjaga keamanannya dan akses diskon ke acara berharga kami, seperti Transformasi 2021: Belajarlah lagi
fitur jaringan, dan banyak lagi

Menjadi anggota

Sumber: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Stempel Waktu: 15 April, 2021

Diterbitkan Ulang Oleh Plato

Solusi kumpulan data

Aplikasi masa depan

VentureBeat

Lebih dari VentureBeat

Uniphore meraup $ 140 juta untuk analisis otomatis panggilan suara dan video

Teknologi menyelamatkan pengalaman olahraga langsung

Wawancara CEO Nvidia Jensen Huang: Dari CPU Grace hingga metaverse insinyur

Pendukung transformasi digital Bizagi mempekerjakan CIO pertama untuk meningkatkan otomatisasi perusahaan

Apple akan fokus pada pembelajaran mesin, pekerjaan AI di kampus NC baru

Startup observasi AI Aporia mendapatkan $ 5 juta untuk menyediakan pagar pembatas bagi AI

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun