Csatlakozzon a Transform 2021-hez július 12-16. Regisztráció for az év mesterséges intelligencia eseménye.
A világ 700 millió írástudatlan embere közül sok számára a beszédfelismerő technológia hidat jelenthet az értékes információkhoz. Mégis sok országban ezek az emberek általában csak olyan nyelveket beszélnek, amelyekre a beszédfelismerő modell képzéséhez szükséges adatkészletek alig állnak rendelkezésre. Ez az adathiány több okból is fennáll, többek között az, hogy a kisebb népesség által beszélt nyelvekre kevésbé jövedelmező lehet termékeket létrehozni.
Nonprofit erőfeszítések folynak a szakadék megszüntetésére, többek között 1000 szó 1000 nyelven, Mozilla Közös Hang, És a Masakhane projekt, amely neurális gépi fordítással igyekszik lefordítani afrikai nyelveket. De ezen a héten a guineai székhelyű technológiai gyorsító kutatói GNCode és Stanford részletes egy új kezdeményezés, amely egyedülálló módon támogatja a rádióarchívumok használatát az „alacsony erőforrású” nyelvek, különösen a Maninka, a Pular és a Susu nyelvek beszédrendszerének fejlesztésében a Niger Congo családban.
„A niger-kongói nyelveket beszélő emberek írástudási aránya a legalacsonyabb a világon, és az analfabéta aránya különösen a nők esetében szembetűnő” – jegyzik meg a társszerzők. "A maninkát, pulart és susut összesen 10 millió ember beszéli, elsősorban hét afrikai országban, köztük hat országban, ahol a felnőtt lakosság többsége írástudatlan."
Az új kezdeményezés mögött meghúzódó ötlet az, hogy kihasználjuk felügyelet nélkül beszédreprezentáció tanulása, bizonyítva, hogy a rádióműsorokból tanult reprezentációk felhasználhatók a beszédfelismerésre. Ahol nem léteznek címkézett adatkészletek, a felügyelet nélküli tanulás segíthet a tartományi ismeretek kiegészítésében az adatpontok közötti összefüggések meghatározásával, majd az újonnan alkalmazott adatcímkék alapján történő betanítással.
Új adatkészletek
A kutatók két adatkészletet hoztak létre, a nyugat-afrikai beszédfelismerő korpuszt és a nyugat-afrikai rádiókorpuszt, amelyeket a nyugat-afrikai nyelveket megcélzó alkalmazásokhoz szántak. A nyugat-afrikai beszédfelismerő korpusz több mint 10,000 49 órányi rögzített beszédet tartalmaz francia, maninka, susu és pular nyelven, nagyjából 17,000 beszélőtől, beleértve a guineai keresztneveket és a hangutasításokat, mint például „frissítse ezt”, „törölje”, „igen” és "nem." Ami a nyugat-afrikai rádió korpuszt illeti, XNUMX XNUMX hangfelvételből áll, amelyeket hat guineai rádióállomás archívumából gyűjtöttek össze. A West African Radio Corpus adásai olyan híreket és műsorokat ölelnek fel, mint a francia, a guerze, a koniaka, a kissi, a kono, a maninka, a mano, a pular, a susu és a toma.
A beszédfelismerő rendszer létrehozásához a kutatók a Facebook wav2vec-ét használták, amely egy nyílt forráskódú keretrendszer a felügyelet nélküli beszédfeldolgozáshoz. A Wav2vec egy kódoló modult használ, amely nyers hangot vesz fel, és beszédreprezentációkat ad ki, amelyeket egy transzformátorba táplálnak, amely biztosítja, hogy a reprezentációk a teljes hangsorozat információit rögzítsék. A Google kutatói által 2017-ben létrehozott, a Transzformátor hálózati architektúra eredetileg a gépi fordítás javításának egyik módja volt. Ebből a célból figyelmi függvényeket használ az ismétlődő neurális hálózatok helyett, hogy megjósolja, mi következik a sorozatban.
Annak ellenére, hogy a rádiós adatkészlet telefonhívásokat, valamint háttér- és előtérzenét, statikát és interferenciát tartalmaz, a kutatóknak sikerült egy wav2vec modellt betanítaniuk a nyugat-afrikai rádiókorpusszal, amelyet WAwav2vec-nek hívnak. Egy francia, maninka, pular és susu nyelvű beszédkísérlet során a társszerzők azt mondják, hogy többnyelvű beszédfelismerési pontosságot értek el (88.01%), amely megegyezik a Facebook wav2vec alapmodelljével (88.79%) – annak ellenére, hogy az alapmodellt betanították. 960 óra beszéd, szemben a WAwav2vec 142 órájával.
Virtuális asszisztens
A koncepció bizonyítékaként a kutatók a WAwav2vec segítségével létrehozták a beszédsegéd prototípusát. Az asszisztens – amely nyílt forráskódban is elérhető az adatkészletekkel együtt – a neveken és számjegyeken kívül képes felismerni az alapvető névjegykezelési parancsokat (pl. „keresés”, „hozzáadás”, „frissítés” és „törlés”). Amint a társszerzők megjegyzik, az okostelefonokhoz való hozzáférés robbanásszerűen megnőtt Globális dél, becslések szerint 24.5 millió okostelefon-tulajdonos csak Dél-Afrikában, szerint a Statista számára, így ez a fajta asszisztens valószínűleg hasznos lehet.
„Legjobb tudomásunk szerint az általunk kiképzett többnyelvű beszédfelismerő modellek az elsők, amelyek Maninka, Pular és Susu nyelven ismerik fel a beszédet. Azt is megmutattuk, hogy ez a modell hogyan tud működni egy hangos interfésszel a kapcsolattartáshoz” – írták a társszerzők. „A jövőbeli munka kiterjesztheti szókincsét olyan alkalmazási területekre, mint a mikrofinanszírozás, a mezőgazdaság vagy az oktatás. Azt is reméljük, hogy a képességeit a niger-kongói családhoz tartozó és azon túli nyelvekre is kiterjeszthetjük, hogy az írástudás vagy az idegen nyelvek beszélésének képessége ne legyen előfeltétele a technológia előnyeinek eléréséhez. A rádiós adatok bősége miatt egyértelművé kell tenni a kódoló más nyelvekre való kiterjesztését.”
VentureBeat
A VentureBeat küldetése, hogy digitális városi tér legyen a műszaki döntéshozók számára, ahol ismereteket szerezhetnek a transzformatív technológiáról és a tranzakciókról. Webhelyünk alapvető információkat tartalmaz az adattechnológiákról és -stratégiákról, amelyek útmutatást nyújtanak a szervezet vezetése során. Meghívjuk Önt, hogy legyen közösségünk tagja, hogy elérje:
- naprakész információk az Ön számára érdekes témákról
- hírlevelünk
- zárt gondolat-vezető tartalom és kedvezményes hozzáférés díjazott eseményeinkhez, mint pl Átalakítás 2021: Tudj meg többet
- hálózati funkciók és így tovább
- 000
- 2021
- gázpedál
- hozzáférés
- Afrika
- afrikai
- mezőgazdaság
- AI
- között
- Alkalmazás
- alkalmazások
- Archív
- körül
- Helyettes
- hang-
- kiindulási
- BEST
- HÍD
- hívás
- fő
- közösség
- tartalom
- országok
- létrehozása
- dátum
- digitális
- számjegy
- domainek
- Oktatás
- esemény
- eventbrite
- események
- Bontsa
- kísérlet
- család
- Jellemzők
- Fed
- vezetéknév
- Keretrendszer
- rés
- útmutató
- Hogyan
- HTTPS
- ötlet
- Beleértve
- információ
- Kezdeményezés
- kamat
- IT
- július
- tudás
- Címkék
- nyelv
- Nyelvek
- vezet
- TANUL
- tanult
- tanulás
- gépi fordítás
- Többség
- Gyártás
- vezetés
- millió
- Küldetés
- modell
- zene
- nevek
- hálózat
- ideg-
- neurális hálózat
- hír
- nyitva
- nyílt forráskódú
- Más
- tulajdonosok
- Emberek (People)
- népesség
- hatalom
- Termékek
- Programok
- bizonyíték
- bizonyíték a koncepcióra
- rádió
- Az árak
- Nyers
- miatt
- SIX
- okostelefon
- So
- Dél
- Dél-Afrika
- hangszórók
- Speech Recognition
- négyzet
- Stanford
- rendszer
- Systems
- tech
- Műszaki
- Technologies
- Technológia
- Képzések
- vonatok
- Fordítás
- felügyelet nélküli tanulás
- Értékes információ
- VentureBeat
- Ellen
- Hang
- hangparancsok
- hét
- Nyugati
- WHO
- Női
- szavak
- Munka
- világ