Googlen tutkijat parantavat puheentunnistuksen tarkkuutta lisäämällä tietojoukkoja

Julkaissut Platon

seuraajia: 0

Liity Transform 2021 -tapahtumaan 12.-16. Rekisteröidy fo r vuoden tekoälytapahtuma.

Entä jos avain puheentunnistuksen tarkkuuden parantamiseen on yksinkertaisesti sekoittaa kaikki saatavilla olevat puhetietojoukot yhteen suuren tekoälymallin kouluttamiseksi? Tämä on hypoteesi Google Researchin ja Google Brainin sidoksissa olevan tutkijaryhmän julkaiseman äskettäisen tutkimuksen taustalla. He väittävät, että AI-malli on nimeltään SpeechStew joka on koulutettu useille puhekorpeille, saavuttaa huippuluokan tai lähes huipputason tuloksia useissa puheentunnistuksen vertailuarvoissa.

Tietojen lisäämiseen liittyvien mallien kouluttaminen on yleensä vaikeaa, koska uuden tiedon kerääminen ja merkitseminen on kallista – erityisesti puhealueella. Lisäksi suurten mallien kouluttaminen on kallista ja epäkäytännöllistä monille tekoälyyhteisön jäsenille.

Tietojoukkoratkaisu

Etsiessään ratkaisua Googlen tutkijat yhdistivät kaikki saatavilla olevat merkittyjä ja merkitsemättömiä puheentunnistustietoja, jotka yhteisö on kuratoinut vuosien aikana. He käyttivät AMI:ta, tietojoukkoa, joka sisältää noin 100 tuntia kokoustallenteita, sekä korporoita, jotka sisältävät Switchboardin (noin 2,000 50 tuntia puheluita), Broadcast Newsin (960 tuntia televisiouutisia), Librispeechin (XNUMX tuntia äänikirjoja) ja Mozillan joukkolähde Yhteinen ääni. Heidän yhdistetyssä tietojoukossaan oli yli 5,000 XNUMX tuntia puhetta - joista yhtäkään ei muutettu alkuperäisestä muodostaan.

Kootun tietojoukon avulla tutkijat käyttivät Google Cloud -TPU:ita SpeechStew-koulutukseen, jolloin saatiin malli, jossa oli yli 100 miljoonaa parametria. Koneoppimisessa parametrit ovat niiden tietojen ominaisuuksia, jotka malli oppi koulutusprosessin aikana. Tutkijat kouluttivat myös 1 miljardin parametrin mallin, mutta se kärsi heikentyneestä suorituskyvystä.

Kun ryhmällä oli yleiskäyttöinen SpeechStew-malli, he testasivat sitä a vertailuarvojen määrä ja havaitsi, että se ei ainoastaan päittänyt aiemmin kehitettyjä malleja, vaan osoitti kykyä sopeutua haastaviin uusiin tehtäviin. Hyödyntämällä Chime-6:ta, 40 tunnin datajoukkoa kodeissa mikrofoneilla tallennetuista etäkeskusteluista, tutkijat hienosääsivät SpeechStew'n saavuttaakseen tarkkuuden paljon kehittyneemmän mallin mukaisesti.

Siirto-oppiminen tarkoittaa tiedon siirtämistä yhdeltä toimialueelta toiselle vähemmällä datalla, ja se on osoittanut lupaavuutta monilla tekoälyn osa-alueilla. Ottamalla SpeechStew'n kaltaisen mallin, joka on suunniteltu ymmärtämään yleistä puhetta, ja tarkentamalla sitä marginaaleista, tekoäly voi esimerkiksi ymmärtää puhetta erilaisissa aksenteissa ja ympäristöissä.

Tulevat sovellukset

Kun VentureBeat kysyi sähköpostitse, kuinka SpeechStewin kaltaisia puhemalleja voitaisiin käyttää tuotannossa – kuten kuluttajalaitteissa tai pilvisovellusliittymissä – tutkijat kieltäytyivät spekuloimasta. Mutta he kuvittelevat, että mallit toimivat yleiskäyttöisinä esityksinä, jotka voidaan siirtää mihin tahansa loppupään puheentunnistustehtäviin.

"Tämä yksinkertainen tekniikka yleiskäyttöisen mallin hienosäätämiseksi uusiin alavirran puheentunnistustehtäviin on yksinkertainen, käytännöllinen, mutta kuitenkin järkyttävän tehokas", tutkijat sanoivat. ”On tärkeää ymmärtää, että muiden tietolähteiden jakauma ei täysin vastaa kiinnostavaa aineistoa. Mutta niin kauan kuin tarvitaan yhteistä esitystä molempien tehtävien ratkaisemiseksi, voimme toivoa saavamme parempia tuloksia yhdistämällä molemmat tietojoukot."

VentureBeat

VentureBeatin tehtävänä on olla digitaalinen kaupungin aukio teknisille päätöksentekijöille saadakseen tietoa muuttuvasta tekniikasta ja kaupoista. Sivustomme tarjoaa olennaisia tietoja tietotekniikoista ja strategioista, jotka ohjaavat sinua organisaatiosi johdossa. Kutsumme sinut tulemaan yhteisömme jäseneksi ja tutustumaan:

ajantasaista tietoa sinua kiinnostavista aiheista
uutiskirjeemme
aidattu ajattelijan sisältö ja alennettu pääsy arvostettuihin tapahtumiin, kuten Muuta 2021: Lisätietoja
verkko-ominaisuudet ja paljon muuta

Tule jäseneksi

Lähde: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Aikaleima: Huhtikuu 15, 2021

Aikaleima: Huhtikuu 1, 2021

Googlen tutkijat parantavat puheentunnistuksen tarkkuutta lisäämällä tietojoukkoja

Julkaissut Platon

Tietojoukkoratkaisu

Tulevat sovellukset

VentureBeat

Lisää aiheesta VentureBeat

Blue Dot kerää 32 miljoonaa dollaria tekoälylle, joka auttaa yrityksiä noudattamaan verolakeja

Dataikun uudet tekoälytyökalut vähentävät riippuvuutta tietojenkäsittelytiimeistä

Myynninhallinta-alusta Atrium kerää 13.5 miljoonaa dollaria pintakäsityksiin tekoälyn avulla

OpsRamp paljastaa ohjelmiston, jolla yritykset voidaan siirtää julkiseen pilvipalveluun

Bigeye kerää 17 miljoonaa dollaria tietojen laadun algoritmiseen seurantaan

Microsoft kertoo koneoppimisen uusimmasta kehityksestä GTC 21: ssä

Ally tutkii fintech-tuotteita kvanttilaskennan avulla Microsoftin kanssa

Device42 laajentaa IT-infrastruktuurin etsintätyökalun AIOps-ulottuvuutta

Catch NVIDIA GTC 21 elää täällä

Informatica modernisoi iPaaS-alustan mikropalveluiden ja tekoälyn avulla

Amazon esittelee koreografiset liikkeet Alexa Presentation Language 1.6: lla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili