Gépi fordítás megoldása, lépésről lépésre

Forrás csomópont: 795289

Gyerekkoromban azt hittem, hogy matematikus vagy fizikus leszek. Nagyon korán megértettem, hogy ezen a területen szeretnék tanulni és kutatni, vagy akár tanár lenni. Nem tudtam, mi az az AI. Sőt, az első években, amikor informatikából tanultam, sokszor úgy éreztem, hogy át kellene térnem a matematikára. Örülök, hogy nem.

A nagymamám azonban nem igazán érti, mi a munkám, mert ehhez internetezni kell. Ha nem, és azt mondom, hogy az Unbabelnél a számítógépeket automatikusan emberi cselekvésekre késztetjük, akkor valószínűleg csak ülnél, és üres tekintettel bámulnál vissza rám.

Bizonyos értelemben nem egészen más helyre kerültem, mint ahogy gyerekként elképzeltem. Úgy értem, ez az egész gépi fordítási terület Warren Weaverrel kezdődött a második világháború után, miután Allen Turing matematikus feltörte az Enigma kódot.

Az ötlet az, hogy a nyelvet kódként kezelhetjük. A különbség az, hogy a kódok formálisak, egyértelműek; és éppen a kétértelműség teszi olyan nehézzé a fordítást.

A gépi fordítás állapota

Vannak, akik ismerik az Unbabel tevékenységét: egy adott nyelvű szöveget lefordítunk egy másik nyelvre. De mások még azt sem tudják, mi az a mesterséges intelligencia. Egyesek azt gondolhatják, hogy az AI csak „robot dolgok”, de nem ez. Amit az AI csinál, az valamilyen módon utánozza az emberi viselkedést, és bizonyos dolgokban még az embereknél is jobb rajta.

Kezdjük az alapokkal: mit csinálnak a gépi tanulási rendszerek? Előadsz nekik egy forrásobjektumot, jelen esetben egy mondatot, és megkéred őket, hogy jósoljanak meg valamit, egy célmondatot.

A fordítás nehézsége az, hogy nincs aranystandard. Az aranystandard a tényleges igazságot jelenti. Ha egy gépet arra akarsz rávenni, hogy érzékelje a képeket a következő kérdéssel: „Ez egy macska vagy egy kutya?”, van egy arany igazság, mert egy adott kép az egyik vagy a másik. A gépi fordításban ez nem létezik, mert 20 különböző fordítása lehet, amelyek egyformán jók. Ez egy sokkal nehezebb probléma kezdeni. Mi a jó fordítás és mi nem? Az is tény, hogy a nyelv nagyon kétértelmű. A szavak különböző összefüggésekben nagyon különböző dolgokat jelenthetnek. Így a fordítással kapcsolatos probléma nagyrészt megoldatlan.

Ha mélyebben megvizsgálja a gépi fordítást, látni fogja, hogy nem sokkal jobb, mint néhány évvel ezelőtt, annak ellenére, amit a legtöbben gondolnak. A statisztikai gépi fordítórendszerek korábbi kimenetei nagyon természetellenesnek vagy robotizáltnak tűntek. Ma talán gördülékenyebben hangzanak, de kevésbé megfelelőek, mint az előzőek, amelyeknek általában megfelelő volt a tartalma, még ha nehezebb is lehetett volna megérteni. A gépi fordítások manapság tartalmilag katasztrofálisan kudarcot vallanak, de még mindig gördülékenyen hangzanak. Összességében ez egy jobb rendszer.

A gépi fordítás eljutott arra a pontra, hogy az ember legalább a szöveg lényegét megérti. Egyre folyékonyabb, annak ellenére, hogy a modellek még mindig nagyon alapszintűek és kevés nyelvtudással rendelkeznek. Még mindig többnyire egy mondatonkénti szinten dolgoznak. Tehát aki azt gondolja, hogy a gépi fordítás megoldott, nyilvánvalóan nem használta.

Az Unbabelnek, mint cégnek, aki eladja többnyelvű támogatási megoldások a nagyvállalatok számára, amelyek naponta több ezer vagy millió ügyféllel állnak kapcsolatban, ez problémát jelent, mivel a legtöbbször, amikor a gépi fordítást említi, az emberek azonnal az elkövetett hibákra gondolnak. Nem lehet egyszerűen történeteket kitalálni, hogy úgy tűnjön, hogy a gépi fordítás tökéletes, jelenleg ez a helyzet. Továbbra is egy emberre van szükség, hogy ezt a plusz minőséget adja.

A csevegésben például van egy személy, aki valójában beszél a másik személlyel, ami azt jelenti, hogy sokkal gyorsabban felépülhet a hibákból. Ha olyasmit mondasz, aminek nincs értelme, a másik oldalon lévő személy azt mondhatja, hogy „mi? Ezt nem értem”, és akkor újra megpróbálja a fordítást.

Ez alapvetően azt jelenti, hogy Ön a saját minőségi becslése, mert a nap végén egy működő párbeszédre vágyik.

A minőségbecslés fontossága

A minőségbecslés – amit a fordítórendszer minőségének értékelésére használunk referenciafordítások vagy emberi beavatkozás nélkül – a gépi fordítás titka. Valójában néhányan azt állították, hogy ez megoldhatja a „melyik a helyes fordítás?” problémát, mert most már van egy rendszerünk, amely felméri, hogy egy fordítás mennyire jó vagy rossz. Ez nem feltétlenül jelenti azt, hogy a fordítás az a helyes, de az a helyes fordítás.

A minőségbecslés azonban ugyanazokkal a nehézségekkel küzd, mint a gépi fordítás, ami azt jelenti, hogy ugyanolyan szintű pontosságot várhat el tőle. A gépi fordítás legnagyobb problémája az, hogy mindig hibázik, mert a nyelvet nagyon nehéz megérteni. Akár a számítási teljesítmény miatt túl egyszerű modellek miatt, akár azért, mert bármely gépi tanulási rendszer hibázik, a legjobb részvények 90 százalék körül vannak. Ez soknak tűnhet, de ha jobban belegondolunk, ez azt jelenti, hogy minden tizedik mondat hibás lesz.

A minőségbecslés megpróbálja megjósolni a rossz mondatokat, vagy legalábbis megpróbálja megítélni, hogy egy hiba kritikus-e vagy sem. Ez alapvetően lehetővé teszi számunkra, hogy a gépi fordítást sokkal nagyobb biztonsággal használjuk.

Az Unbabelnél sok időt szentelünk a minőségbecslési probléma megoldásának. Az alapvető AI-csapat az, aki leginkább erre összpontosított, új modelleket fedezett fel. Aztán rengeteg munka van az alkalmazott mesterséges intelligencia és a termelés terén, hogy megválaszolják a következő kérdéseket:

  • Hogyan működik ez a csővezetéken?
  • Méretezhető? Változtatnunk kell a célon?
  • Hogyan működik ez a gyakorlati adatainkkal?
  • Hogyan csinálja ezeket a modelleket?

Mivel az alapvető mesterséges intelligencia többnyire általános tartományi adatokon működik, az alkalmazott AI-nak fel kell vennie ezeket, és meg kell győződnie arról, hogy működik a chat- vagy jegyvásárlási valóságunkon, függetlenül attól, hogy eltérő hangokkal működik-e vagy sem. Ott van a kutatás, aztán az eredményeket bedolgozzák a termékbe.

Szilárdan hiszünk minőségbecslési rendszereinkben. Hiszünk a reprodukálható és kollaboratív kutatásban is, éppen ezért néhány hónappal ezelőtt megépítettük az Open Kiwit – egy nyílt forráskódú keretrendszert, amely a legjobb minőségbecslési rendszereket valósítja meg, ami igazán egyszerűvé teszi ezekkel a modellekkel ugyanazon a kereten belüli kísérletezést és iterációt, valamint új modellek fejlesztését.

Valószínűleg mi voltunk az elsők között, akik elkezdték a minőségbecslést a termelésben alkalmazni, és nagyon régóta kutatjuk a témát. Ez azt jelenti, hogy jobb modellekkel rendelkezünk, és jobban megértjük a problémát, mint a minőségbecslésen dolgozó többi vállalat vagy kutató.

A díjakat pedig…

Ezért is örültem nagyon visszaszerezte a legjobb globális gépi fordítási minőségbecslési rendszer címünket a World Machine Translation konferencián korábban ebben az évben. Nem csak ez, hanem az automatikus bejegyzésszerkesztés versenyét is megnyertük.

Két okból is nagyon fontos volt számunkra. Az első a minőségbecslésnek a gyártási folyamatunkra gyakorolt ​​hatása, az ebből származó befektetés megtérülése. Ehhez pedig teljesen mindegy, hogy megnyerjük-e ezt vagy bármely más versenyt.

Másrészt viszont az ilyen rangos díjak elnyerése az Unbabel márka elismerését jelenti, ami elengedhetetlen ahhoz, hogy felkeltsük az ügyfelek és a befektetők figyelmét. Fontos elismerés ez a mesterséges intelligencia csapatának is, akiknek a munkáját néha nehéz megérteni és becsülni. A mesterséges intelligencia nagyon magas kockázatú, magas jutalom. Dolgozhatsz egy évig, és nem jutsz semmire. Például az emberi minőség becslésén végzett munka nem működött, mert nem voltak ehhez megfelelő eszközeink.

Így ezek a díjak jók az elismerésre, növelik az Unbabel név ismertségét az üzleti életben és a tudományos életben, de jót tesznek a morálnak is. Az Unbabel tisztán mesterséges intelligenciával foglalkozó cég. Nem csak mesterséges intelligenciát használunk, hanem olyan AI-t építünk és fedezünk fel, amely még nem létezik. És az, hogy ezt nyilvánosan elismerik, számomra a világot jelenti. Azt hiszem, a 9 éves, akaratlan matematikus énem büszke lenne.

Forrás: https://unbabel.com/blog/best-machine-translation-quality-estimation/

Időbélyeg:

Még több Unbabel