Mozilla ukinja razvoj DeepSpeech, napoveduje program nepovratnih sredstev

Izvorno vozlišče: 808643

Pridružite se Transform 2021 od 12. do 16. julija. Registrirajte se zar dogodek leta AI.


Leta 2017 se je začela Mozilla DeepSpeech, pobuda, inkubirana v ekipi za strojno učenje pri Mozilla Research, osredotočena na odprtokodni model samodejnega prepoznavanja govora. V naslednjih štirih letih je ekipa DeepSpeech izdala novejše različice modela, ki je sposoben prepisovati predavanja, telefonske pogovore, televizijske programe, radijske oddaje in druge prenose v živo s »človeško natančnostjo«. Toda v prihodnjih mesecih namerava Mozilla prenehati z razvojem in vzdrževanjem DeepSpeecha, ko bo podjetje prešlo v svetovalno vlogo, kar bo vključevalo začetek programa nepovratnih sredstev za financiranje številnih pobud, ki prikazujejo aplikacije za DeepSpeech.

DeepSpeech ni edini odprtokodni projekt te vrste, je pa med najbolj zrelimi. Model, zasnovan po raziskovalnih člankih, ki jih je objavil Baidu, je arhitektura na ravni znakov, ki jo je mogoče učiti od konca do konca in lahko prepisuje zvok v različnih jezikih. Eden od glavnih ciljev Mozille je bil doseči stopnjo napak pri prepisu, nižjo od 10 %, in najnovejše različice vnaprej usposobljenega modela za angleški jezik dosegajo ta cilj, s povprečno stopnjo napak pri besedah ​​okoli 7.5 %.

Mozilla je prepričana, da je DeepSpeech dosegel točko, ko je naslednji korak delo na izdelavi aplikacij. V ta namen podjetje načrtuje prenos projekta na »ljudje in organizacije«, ki jih zanima nadaljnje »raziskovanje na podlagi primerov uporabe«. Mozilla pravi, da je poenostavila stalne integracijske postopke za vzpostavitev in delovanje DeepSpeech z minimalnimi odvisnostmi. In medtem ko podjetje čisti dokumentacijo in se pripravlja, da bo Mozillino osebje prenehalo vzdrževati kodno zbirko, Mozilla pravi, da bo objavila komplet orodij, ki bo pomagal ljudem, raziskovalcem, podjetjem in vsem drugim zainteresiranim stranem pri uporabi DeepSpeech za gradnjo glasovnih rešitev.

DeepSpeech: Kratka zgodovina

Mozillino delo na DeepSpeech se je začelo konec leta 2017 s ciljem razviti model, ki dobi zvočne funkcije – govor – kot vhod in neposredno izhodne znake. Ekipa je upala, da bo oblikovala sistem, ki bi ga bilo mogoče usposobiti z uporabo Googlovega ogrodja TensorFlow prek nadzorovanega učenja, kjer se model nauči sklepati vzorce iz podatkovnih nizov označenega govora.

Najnovejši model DeepSpeech vsebuje na desetine milijonov parametrov ali delov modela, ki se jih naučijo iz preteklih podatkov o usposabljanju. Raziskovalna skupina Mozilla ga je začela usposabljati z enim samim računalnikom, ki poganja štiri grafične procesorje Titan X Pascal, vendar ga je sčasoma preselila na dva strežnika z 8 Titan XP na vsakem. V zgodnjih dneh projekta je usposabljanje visoko zmogljivega modela trajalo približno en teden.

V letih, ki so sledila, si je Mozilla prizadevala skrčiti model DeepSpeech, hkrati pa povečati njegovo zmogljivost in ostati pod ciljno stopnjo napak 10 %. Model v angleškem jeziku se je zmanjšal s 188 MB na 47 MB, poraba pomnilnika pa se je zmanjšala za 22-krat. notri december 2019, je ekipi uspelo omogočiti, da DeepSpeech deluje "hitreje kot v realnem času" na enem jedru Raspberry Pi 4.

Model DeepSpeech

Mozilla je sprva učila DeepSpeech z uporabo prosto dostopnih naborov podatkov, kot je TED-LIUM in LibriSpeech kot tudi plačani korpusi, kot so Fisher in Stikala, vendar se je to izkazalo za nezadostno. Zato se je ekipa obrnila na javne televizijske in radijske postaje, oddelke za jezikovne študije na univerzah in druge, za katere so menili, da so morda označili govorne podatke za skupno rabo. S tem prizadevanjem jim je uspelo več kot podvojiti količino podatkov o usposabljanju za model DeepSpeech v angleškem jeziku.

Navdihnjena s temi prizadevanji za zbiranje podatkov je ekipa Mozilla Research sodelovala z Mozillino ekipo za odprte inovacije, da bi začela Skupni glas projekt, ki skuša zbrati in potrditi govorne prispevke prostovoljcev. Common Voice ni sestavljen samo iz glasovnih izrezkov, ampak tudi iz prostovoljno prispevanih metapodatkov, ki so uporabni za urjenje govornih mehanizmov, kot so starost, spol in naglasi govorcev. Razširjen je tudi tako, da vključuje ciljne segmente nabora podatkov za posebne namene in primere uporabe, kot so števke od »nič« do »devet« in besede »da«, »ne«, »hej« in »Firefox«.

Danes je Common Voice eden največjih večjezičnih glasovnih korpusov v javni domeni na svetu z več kot 9,000 urami glasovnih podatkov v 60 različnih jezikih, vključno z razširjeno govorjenimi jeziki in manj uporabljenimi, kot sta valižanščina in kinjaruandščina. Več kot 164,000 ljudi je do danes prispevalo k naboru podatkov.

Da bi podprla rast projekta, je Nvidia danes objavila, da bo v Common Voice vložila 1.5 milijona dolarjev, da bi vključila več skupnosti in prostovoljcev ter podprla zaposlovanje novega osebja. Common Voice bo zdaj deloval pod okriljem fundacije Mozilla kot del njenega pobud osredotočen na to, da postane AI bolj zaupanja vreden.

Program nepovratnih sredstev

Medtem ko končuje razvoj DeepSpeecha, Mozilla pravi, da bo njen prihodnji program nepovratnih sredstev dal prednost projektom, ki prispevajo k osnovni tehnologiji, hkrati pa bo pokazal svoj potencial za "opolnomočenje in obogatitev" področij, ki sicer morda ne bodo imela uspešne poti do interakcije, ki temelji na govoru. Več podrobnosti bo objavljenih maja, ko bo Mozilla izdala priročnik, ki bo ljudi vodil, kako uporabljati kodno zbirko DeepSpeech kot izhodišče za glasovne aplikacije.

»Vidimo, da se pojavljajo zreli odprtokodni govorni motorji. Vendar pa v ekosistemu še vedno obstaja pomembna vrzel: govorni motorji – odprti in zaprti – ne delujejo za veliko število svetovnih jezikov, naglasov in govornih vzorcev,« je za VentureBeat povedal Mark Surman, izvršni direktor fundacije Mozilla. preko elektronske pošte. »Za milijarde uporabnikov interneta glasovno omogočene tehnologije preprosto niso uporabne. Mozilla se je odločila svoja prizadevanja osredotočiti na to stran enačbe, tako da bo glasovno tehnologijo naredila vključujočo in dostopno. To pomeni vlaganje v nabore glasovnih podatkov namesto v naš lastni govorni mehanizem. Podvojili smo Common Voice, odprtokodni nabor podatkov, ki se osredotoča na jezike in poudarke, ki trenutno niso zastopani v ekosistemu glasovne tehnologije. Skupne glasovne podatke je mogoče uporabiti za hranjenje ogrodij [odprtega govora] ... in posledično omogočiti več ljudem na več mestih dostop do glasovne tehnologije. [Prav tako] tesno sodelujemo z Nvidio, da bi uskladili ti dve strani vključujoče glasovne tehnološke enačbe.”

Venturebeat

Poslanstvo VentureBeat je biti digitalni mestni trg za tiste, ki sprejemajo tehnične odločitve, da pridobijo znanje o transformativni tehnologiji in transakcijah. Na našem spletnem mestu so na voljo bistvene informacije o podatkovnih tehnologijah in strategijah, ki vas bodo vodile, ko vodite svoje organizacije. Vabimo vas, da postanete član naše skupnosti in dostopate do:

  • najnovejše informacije o temah, ki vas zanimajo
  • naša glasila
  • zaprta vsebina vodje misli in popust za dostop do naših cenjenih dogodkov, kot je Preoblikujte 2021: Nauči se več
  • funkcije mreženja in še več

Postani član

Vir: https://venturebeat.com/2021/04/12/mozilla-winds-down-deepspeech-development-announces-grant-program/

Časovni žig:

Več od Venturebeat