Peneliti Google meningkatkan akurasi pengenalan ucapan dengan lebih banyak set data

Node Sumber: 809069

Bergabunglah dengan Transform 2021 pada 12-16 Juli ini. Daftar for acara AI tahun ini.


Bagaimana jika kunci untuk meningkatkan akurasi pengenalan ucapan adalah dengan menggabungkan semua kumpulan data ucapan yang tersedia untuk melatih satu model AI yang besar? Itulah hipotesis di balik penelitian terbaru yang diterbitkan oleh tim peneliti yang berafiliasi dengan Google Research dan Google Brain. Mereka mengklaim model AI diberi nama PidatoRebusan yang dilatih dalam berbagai korpora ucapan mencapai hasil yang canggih atau hampir canggih pada berbagai tolok ukur pengenalan ucapan.

Melatih model dengan data yang lebih banyak cenderung sulit, karena pengumpulan dan anotasi data baru memerlukan biaya yang mahal โ€” terutama dalam domain ucapan. Selain itu, melatih model berukuran besar memerlukan biaya yang mahal dan tidak praktis bagi banyak anggota komunitas AI.

Solusi kumpulan data

Untuk mencari solusi, para peneliti Google menggabungkan semua data pengenalan ucapan berlabel dan tidak berlabel yang dikurasi oleh komunitas selama bertahun-tahun. Mereka memanfaatkan AMI, kumpulan data yang berisi sekitar 100 jam rekaman rapat, serta corpora yang mencakup Switchboard (sekitar 2,000 jam panggilan telepon), Broadcast News (50 jam berita televisi), Librispeech (960 jam buku audio), dan crowdsourced Mozilla Suara biasa. Kumpulan data gabungan mereka memiliki lebih dari 5,000 jam bicara โ€” tidak ada satupun yang disesuaikan dari bentuk aslinya.

Dengan kumpulan data yang dikumpulkan, para peneliti menggunakan Google Cloud TPU untuk melatih SpeechStew, sehingga menghasilkan model dengan lebih dari 100 juta parameter. Dalam pembelajaran mesin, parameter adalah properti data yang dipelajari model selama proses pelatihan. Para peneliti juga melatih model dengan 1 miliar parameter, tetapi model tersebut mengalami penurunan performa.

Setelah tim memiliki model SpeechStew untuk tujuan umum, mereka mengujinya pada a sejumlah tolok ukur dan menemukan bahwa hal ini tidak hanya mengungguli model yang dikembangkan sebelumnya namun juga menunjukkan kemampuan untuk beradaptasi terhadap tugas-tugas baru yang menantang. Dengan memanfaatkan Chime-6, kumpulan data percakapan jarak jauh di rumah berdurasi 40 jam yang direkam oleh mikrofon, para peneliti menyempurnakan SpeechStew untuk mencapai akurasi yang sejalan dengan model yang jauh lebih canggih.

Pembelajaran transfer berarti mentransfer pengetahuan dari satu domain ke domain lain dengan data yang lebih sedikit, dan hal ini menunjukkan hasil yang menjanjikan di banyak subbidang AI. Dengan mengambil model seperti SpeechStew yang dirancang untuk memahami ucapan umum dan menyempurnakannya, AI dapat, misalnya, memahami ucapan dalam aksen dan lingkungan yang berbeda.

Aplikasi masa depan

Ketika VentureBeat bertanya melalui email bagaimana model ucapan seperti SpeechStew dapat digunakan dalam produksi โ€“ seperti pada perangkat konsumen atau API cloud โ€“ para peneliti menolak untuk berspekulasi. Namun mereka membayangkan model tersebut berfungsi sebagai representasi tujuan umum yang dapat ditransfer ke sejumlah tugas hilir pengenalan suara.

โ€œTeknik sederhana untuk menyempurnakan model tujuan umum ke tugas-tugas pengenalan suara hilir yang baru ini sederhana, praktis, namun sangat efektif,โ€ kata para peneliti. โ€œPenting untuk disadari bahwa distribusi sumber data lain tidak sepenuhnya sesuai dengan kumpulan data yang diinginkan. Namun selama ada representasi umum yang diperlukan untuk menyelesaikan kedua tugas tersebut, kami berharap dapat mencapai hasil yang lebih baik dengan menggabungkan kedua kumpulan data.โ€

VentureBeat

Misi VentureBeat adalah menjadi alun-alun kota digital bagi para pembuat keputusan teknis untuk mendapatkan pengetahuan tentang teknologi transformatif dan bertransaksi. Situs kami memberikan informasi penting tentang teknologi data dan strategi untuk memandu Anda saat Anda memimpin organisasi. Kami mengundang Anda untuk menjadi anggota komunitas kami, untuk mengakses:

  • informasi terkini tentang topik yang menarik bagi Anda
  • buletin kami
  • konten pemimpin pemikiran yang terjaga keamanannya dan akses diskon ke acara berharga kami, seperti Transformasi 2021: Belajarlah lagi
  • fitur jaringan, dan banyak lagi

Menjadi anggota

Sumber: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Stempel Waktu:

Lebih dari VentureBeat