Googlen tutkijat parantavat puheentunnistuksen tarkkuutta lisäämällä tietojoukkoja

Lähdesolmu: 809069

Liity Transform 2021 -tapahtumaan 12.-16. Rekisteröidy for vuoden tekoälytapahtuma.


Entä jos avain puheentunnistuksen tarkkuuden parantamiseen on yksinkertaisesti sekoittaa kaikki saatavilla olevat puhetietojoukot yhteen suuren tekoälymallin kouluttamiseksi? Tämä on hypoteesi Google Researchin ja Google Brainin sidoksissa olevan tutkijaryhmän julkaiseman äskettäisen tutkimuksen taustalla. He väittävät, että AI-malli on nimeltään SpeechStew joka on koulutettu useille puhekorpeille, saavuttaa huippuluokan tai lähes huipputason tuloksia useissa puheentunnistuksen vertailuarvoissa.

Tietojen lisäämiseen liittyvien mallien kouluttaminen on yleensä vaikeaa, koska uuden tiedon kerääminen ja merkitseminen on kallista – erityisesti puhealueella. Lisäksi suurten mallien kouluttaminen on kallista ja epäkäytännöllistä monille tekoälyyhteisön jäsenille.

Tietojoukkoratkaisu

Etsiessään ratkaisua Googlen tutkijat yhdistivät kaikki saatavilla olevat merkittyjä ja merkitsemättömiä puheentunnistustietoja, jotka yhteisö on kuratoinut vuosien aikana. He käyttivät AMI:ta, tietojoukkoa, joka sisältää noin 100 tuntia kokoustallenteita, sekä korporoita, jotka sisältävät Switchboardin (noin 2,000 50 tuntia puheluita), Broadcast Newsin (960 tuntia televisiouutisia), Librispeechin (XNUMX tuntia äänikirjoja) ja Mozillan joukkolähde Yhteinen ääni. Heidän yhdistetyssä tietojoukossaan oli yli 5,000 XNUMX tuntia puhetta - joista yhtäkään ei muutettu alkuperäisestä muodostaan.

Kootun tietojoukon avulla tutkijat käyttivät Google Cloud -TPU:ita SpeechStew-koulutukseen, jolloin saatiin malli, jossa oli yli 100 miljoonaa parametria. Koneoppimisessa parametrit ovat niiden tietojen ominaisuuksia, jotka malli oppi koulutusprosessin aikana. Tutkijat kouluttivat myös 1 miljardin parametrin mallin, mutta se kärsi heikentyneestä suorituskyvystä.

Kun ryhmällä oli yleiskäyttöinen SpeechStew-malli, he testasivat sitä a vertailuarvojen määrä ja havaitsi, että se ei ainoastaan ​​päittänyt aiemmin kehitettyjä malleja, vaan osoitti kykyä sopeutua haastaviin uusiin tehtäviin. Hyödyntämällä Chime-6:ta, 40 tunnin datajoukkoa kodeissa mikrofoneilla tallennetuista etäkeskusteluista, tutkijat hienosääsivät SpeechStew'n saavuttaakseen tarkkuuden paljon kehittyneemmän mallin mukaisesti.

Siirto-oppiminen tarkoittaa tiedon siirtämistä yhdeltä toimialueelta toiselle vähemmällä datalla, ja se on osoittanut lupaavuutta monilla tekoälyn osa-alueilla. Ottamalla SpeechStew'n kaltaisen mallin, joka on suunniteltu ymmärtämään yleistä puhetta, ja tarkentamalla sitä marginaaleista, tekoäly voi esimerkiksi ymmärtää puhetta erilaisissa aksenteissa ja ympäristöissä.

Tulevat sovellukset

Kun VentureBeat kysyi sähköpostitse, kuinka SpeechStewin kaltaisia ​​puhemalleja voitaisiin käyttää tuotannossa – kuten kuluttajalaitteissa tai pilvisovellusliittymissä – tutkijat kieltäytyivät spekuloimasta. Mutta he kuvittelevat, että mallit toimivat yleiskäyttöisinä esityksinä, jotka voidaan siirtää mihin tahansa loppupään puheentunnistustehtäviin.

"Tämä yksinkertainen tekniikka yleiskäyttöisen mallin hienosäätämiseksi uusiin alavirran puheentunnistustehtäviin on yksinkertainen, käytännöllinen, mutta kuitenkin järkyttävän tehokas", tutkijat sanoivat. ”On tärkeää ymmärtää, että muiden tietolähteiden jakauma ei täysin vastaa kiinnostavaa aineistoa. Mutta niin kauan kuin tarvitaan yhteistä esitystä molempien tehtävien ratkaisemiseksi, voimme toivoa saavamme parempia tuloksia yhdistämällä molemmat tietojoukot."

VentureBeat

VentureBeatin tehtävänä on olla digitaalinen kaupungin aukio teknisille päätöksentekijöille saadakseen tietoa muuttuvasta tekniikasta ja kaupoista. Sivustomme tarjoaa olennaisia ​​tietoja tietotekniikoista ja strategioista, jotka ohjaavat sinua organisaatiosi johdossa. Kutsumme sinut tulemaan yhteisömme jäseneksi ja tutustumaan:

  • ajantasaista tietoa sinua kiinnostavista aiheista
  • uutiskirjeemme
  • aidattu ajattelijan sisältö ja alennettu pääsy arvostettuihin tapahtumiin, kuten Muuta 2021: Lisätietoja
  • verkko-ominaisuudet ja paljon muuta

Tule jäseneksi

Lähde: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Aikaleima:

Lisää aiheesta VentureBeat