A beszédfelismerő rendszer rádióarchívumot használ, hogy megtanulja a niger-kongói nyelveket

Forrás csomópont: 846145

Csatlakozzon a Transform 2021-hez július 12-16. Regisztráció for az év mesterséges intelligencia eseménye.


A világ 700 millió írástudatlan embere közül sok számára a beszédfelismerő technológia hidat jelenthet az értékes információkhoz. Mégis sok országban ezek az emberek általában csak olyan nyelveket beszélnek, amelyekre a beszédfelismerő modell képzéséhez szükséges adatkészletek alig állnak rendelkezésre. Ez az adathiány több okból is fennáll, többek között az, hogy a kisebb népesség által beszélt nyelvekre kevésbé jövedelmező lehet termékeket létrehozni.

Nonprofit erőfeszítések folynak a szakadék megszüntetésére, többek között 1000 szó 1000 nyelven, Mozilla Közös Hang, És a Masakhane projekt, amely neurális gépi fordítással igyekszik lefordítani afrikai nyelveket. De ezen a héten a guineai székhelyű technológiai gyorsító kutatói GNCode és Stanford részletes egy új kezdeményezés, amely egyedülálló módon támogatja a rádióarchívumok használatát az „alacsony erőforrású” nyelvek, különösen a Maninka, a Pular és a Susu nyelvek beszédrendszerének fejlesztésében a Niger Congo családban.

„A niger-kongói nyelveket beszélő emberek írástudási aránya a legalacsonyabb a világon, és az analfabéta aránya különösen a nők esetében szembetűnő” – jegyzik meg a társszerzők. "A maninkát, pulart és susut összesen 10 millió ember beszéli, elsősorban hét afrikai országban, köztük hat országban, ahol a felnőtt lakosság többsége írástudatlan."

Az új kezdeményezés mögött meghúzódó ötlet az, hogy kihasználjuk felügyelet nélkül beszédreprezentáció tanulása, bizonyítva, hogy a rádióműsorokból tanult reprezentációk felhasználhatók a beszédfelismerésre. Ahol nem léteznek címkézett adatkészletek, a felügyelet nélküli tanulás segíthet a tartományi ismeretek kiegészítésében az adatpontok közötti összefüggések meghatározásával, majd az újonnan alkalmazott adatcímkék alapján történő betanítással.

Új adatkészletek

A kutatók két adatkészletet hoztak létre, a nyugat-afrikai beszédfelismerő korpuszt és a nyugat-afrikai rádiókorpuszt, amelyeket a nyugat-afrikai nyelveket megcélzó alkalmazásokhoz szántak. A nyugat-afrikai beszédfelismerő korpusz több mint 10,000 49 órányi rögzített beszédet tartalmaz francia, maninka, susu és pular nyelven, nagyjából 17,000 beszélőtől, beleértve a guineai keresztneveket és a hangutasításokat, mint például „frissítse ezt”, „törölje”, „igen” és "nem." Ami a nyugat-afrikai rádió korpuszt illeti, XNUMX XNUMX hangfelvételből áll, amelyeket hat guineai rádióállomás archívumából gyűjtöttek össze. A West African Radio Corpus adásai olyan híreket és műsorokat ölelnek fel, mint a francia, a guerze, a koniaka, a kissi, a kono, a maninka, a mano, a pular, a susu és a toma.

A beszédfelismerő rendszer létrehozásához a kutatók a Facebook wav2vec-ét használták, amely egy nyílt forráskódú keretrendszer a felügyelet nélküli beszédfeldolgozáshoz. A Wav2vec egy kódoló modult használ, amely nyers hangot vesz fel, és beszédreprezentációkat ad ki, amelyeket egy transzformátorba táplálnak, amely biztosítja, hogy a reprezentációk a teljes hangsorozat információit rögzítsék. A Google kutatói által 2017-ben létrehozott, a Transzformátor hálózati architektúra eredetileg a gépi fordítás javításának egyik módja volt. Ebből a célból figyelmi függvényeket használ az ismétlődő neurális hálózatok helyett, hogy megjósolja, mi következik a sorozatban.

beszédfelismerés

Fent: A WAwav2vec pontossága.

Annak ellenére, hogy a rádiós adatkészlet telefonhívásokat, valamint háttér- és előtérzenét, statikát és interferenciát tartalmaz, a kutatóknak sikerült egy wav2vec modellt betanítaniuk a nyugat-afrikai rádiókorpusszal, amelyet WAwav2vec-nek hívnak. Egy francia, maninka, pular és susu nyelvű beszédkísérlet során a társszerzők azt mondják, hogy többnyelvű beszédfelismerési pontosságot értek el (88.01%), amely megegyezik a Facebook wav2vec alapmodelljével (88.79%) – annak ellenére, hogy az alapmodellt betanították. 960 óra beszéd, szemben a WAwav2vec 142 órájával.

Virtuális asszisztens

A koncepció bizonyítékaként a kutatók a WAwav2vec segítségével létrehozták a beszédsegéd prototípusát. Az asszisztens – amely nyílt forráskódban is elérhető az adatkészletekkel együtt – a neveken és számjegyeken kívül képes felismerni az alapvető névjegykezelési parancsokat (pl. „keresés”, „hozzáadás”, „frissítés” és „törlés”). Amint a társszerzők megjegyzik, az okostelefonokhoz való hozzáférés robbanásszerűen megnőtt Globális dél, becslések szerint 24.5 millió okostelefon-tulajdonos csak Dél-Afrikában, szerint a Statista számára, így ez a fajta asszisztens valószínűleg hasznos lehet.

„Legjobb tudomásunk szerint az általunk kiképzett többnyelvű beszédfelismerő modellek az elsők, amelyek Maninka, Pular és Susu nyelven ismerik fel a beszédet. Azt is megmutattuk, hogy ez a modell hogyan tud működni egy hangos interfésszel a kapcsolattartáshoz” – írták a társszerzők. „A jövőbeli munka kiterjesztheti szókincsét olyan alkalmazási területekre, mint a mikrofinanszírozás, a mezőgazdaság vagy az oktatás. Azt is reméljük, hogy a képességeit a niger-kongói családhoz tartozó és azon túli nyelvekre is kiterjeszthetjük, hogy az írástudás vagy az idegen nyelvek beszélésének képessége ne legyen előfeltétele a technológia előnyeinek eléréséhez. A rádiós adatok bősége miatt egyértelművé kell tenni a kódoló más nyelvekre való kiterjesztését.”

VentureBeat

A VentureBeat küldetése, hogy digitális városi tér legyen a műszaki döntéshozók számára, ahol ismereteket szerezhetnek a transzformatív technológiáról és a tranzakciókról. Webhelyünk alapvető információkat tartalmaz az adattechnológiákról és -stratégiákról, amelyek útmutatást nyújtanak a szervezet vezetése során. Meghívjuk Önt, hogy legyen közösségünk tagja, hogy elérje:

  • naprakész információk az Ön számára érdekes témákról
  • hírlevelünk
  • zárt gondolat-vezető tartalom és kedvezményes hozzáférés díjazott eseményeinkhez, mint pl Átalakítás 2021: Tudj meg többet
  • hálózati funkciók és így tovább

Legyen tagja

Forrás: https://venturebeat.com/2021/05/05/speech-recognition-system-trains-on-radio-archive-to-learn-niger-congo-languages/

Időbélyeg:

Még több VentureBeat