Machinevertaling oplossen, stap voor stap

Bronknooppunt: 795289

Als kind dacht ik dat ik zou uitgroeien tot wiskundige of natuurkundige. Ik begreep al heel vroeg dat ik op een van die gebieden wilde studeren en onderzoek wilde doen, of zelfs leraar wilde worden. Ik wist niet wat AI was. In feite heb ik tijdens de eerste jaren als student informatica vaak het gevoel gehad dat ik naar wiskunde moest overschakelen. Ik ben blij dat ik dat niet gedaan heb.

Mijn oma begrijpt echter niet echt wat mijn werk is, want daarvoor moet je internet gebruiken. Als je dat niet doet, en ik zeg je dat we bij Unbabel computers menselijke handelingen automatisch laten uitvoeren, zou je daar waarschijnlijk gewoon blijven zitten en me wezenloos aanstaren.

In zekere zin kwam ik niet op een heel andere plek terecht dan ik me als kind had voorgesteld. Ik bedoel, dit hele veld van machinevertaling begon met Warren Weaver na de Tweede Wereldoorlog, nadat Allen Turing, een wiskundige, de Enigma-code had gekraakt.

Het idee is dat we taal als een code kunnen behandelen. Het verschil is dat codes formeel en ondubbelzinnig zijn; en wat vertalen zo moeilijk maakt, is precies dubbelzinnigheid.

De staat van automatische vertaling

Sommige mensen hebben een soort kennis van wat Unbabel doet: we vertalen een tekst in een specifieke taal naar een andere taal. Maar anderen weten niet eens wat kunstmatige intelligentie is. Sommigen denken misschien dat AI alleen maar 'robotdingen' doet, maar dat is het niet. Wat AI doet, is op de een of andere manier menselijk gedrag nabootsen en in sommige dingen is het zelfs beter dan mensen erop.

Laten we beginnen met de basis: wat doen machine learning-systemen? Je presenteert ze een bronobject, in dit geval een zin, en je vraagt ​​ze iets te voorspellen, een doelzin.

De moeilijkheid met vertalen is dat er geen gouden standaard is. Een gouden standaard staat voor de werkelijke waarheid. Als je een machine probeert te krijgen om afbeeldingen te detecteren door te vragen "is dit een kat of een hond?", Is er een gouden waarheid omdat een specifieke afbeelding de een of de ander zou zijn. Bij machinevertaling bestaat dit niet, want je kunt 20 verschillende vertalingen hebben die even goed zijn. Het is om te beginnen een veel moeilijker probleem. Wat is een goede vertaling en wat niet? Er is ook het feit dat taal zeer dubbelzinnig is. Woorden kunnen in verschillende contexten heel verschillende dingen betekenen. En dus is het probleem met de vertaling grotendeels onopgelost.

Als je dieper in machinevertaling kijkt, zul je zien dat het niet zo veel beter is dan een paar jaar geleden, ondanks wat de meeste mensen denken. Eerdere resultaten van statistische automatische vertaalsystemen leken erg onnatuurlijk of robotachtig. Tegenwoordig klinken ze misschien vloeiender, maar ze zijn minder adequaat dan de vorige, die normaal gesproken de juiste inhoud hadden, ook al is het misschien moeilijker te begrijpen. Machinevertalingen kunnen tegenwoordig catastrofaal mislukken qua inhoud, maar klinken nog steeds vloeiend. Over het algemeen is het een beter systeem.

Machinevertaling heeft een punt bereikt waarop men op zijn minst de essentie van de tekst kan begrijpen. Het wordt vloeiender, ondanks dat de modellen nog steeds erg basic zijn en weinig kennis van taal hebben. Ze werken nog steeds voornamelijk aan een soort zin per zin niveau. Dus iedereen die denkt dat machinevertaling is opgelost, heeft deze duidelijk niet gebruikt.

Voor Unbabel als bedrijf, die haar verkoopt meertalige ondersteuningsoplossingen voor grote bedrijven die elke dag met duizenden of miljoenen klanten communiceren, vormt dit een probleem, omdat meestal, wanneer u machinevertaling noemt, mensen denken meteen aan de fouten die het maakt. Je kunt niet zomaar verhalen verzinnen om het te laten lijken alsof machinevertaling perfect is, het is waar het op dit punt is. Het vraagt ​​nog steeds om een ​​mens in de loop om het dat extra beetje kwaliteit te geven.

In de chat is er bijvoorbeeld een persoon die daadwerkelijk met de andere persoon praat, wat betekent dat u veel sneller van fouten kunt herstellen. Als je iets zegt dat nergens op slaat, kan de persoon aan de andere kant zeggen: 'wat? Ik heb het niet verstaan ​​”, en dan probeer je de vertaling opnieuw.

Dit betekent in feite dat je je eigen kwaliteitsinschatting bent, want aan het eind van de dag wil je een dialoog die werkt.

Het belang van kwaliteitsinschatting

Kwaliteitsschatting - wat we gebruiken om de kwaliteit van een vertaalsysteem te beoordelen zonder toegang tot referentievertalingen of menselijke tussenkomst - is het geheim van automatische vertaling. Sommige mensen hebben zelfs beweerd dat het het probleem 'wat is de juiste vertaling?' Zou kunnen oplossen, omdat we nu een systeem hebben dat beoordeelt hoe goed of slecht een vertaling is. Het betekent niet noodzakelijk dat een vertaling dat is de juiste, maar het is a correcte vertaling.

Maar kwaliteitsschatting heeft dezelfde problemen als machinevertalingen, wat betekent dat u er dezelfde nauwkeurigheid van kunt verwachten. Het grootste probleem met machinevertalingen is dat het altijd fouten maakt omdat taal erg moeilijk te begrijpen is. Ofwel vanwege modellen die maar al te simpel zijn vanwege rekenkracht of vanwege het feit dat elk machine learning-systeem fouten zal maken, de beste aandelen liggen rond de 90 procent. Dat lijkt misschien veel, maar als je erover nadenkt, betekent dat dat een op de tien zinnen verkeerd zal zijn.

Kwaliteitsschatting probeert die verkeerde zinnen te voorspellen, of in ieder geval te beoordelen of een fout kritiek is of niet. Het stelt ons in feite in staat om machinevertaling met een veel grotere mate van vertrouwen te gebruiken.

Bij Unbabel hebben we veel tijd gestoken in het oplossen van het probleem van kwaliteitsschatting. Het fundamentele AI-team is degene die er het meest op gefocust is en nieuwe modellen ontdekt. Vervolgens is er veel werk verzet van toegepaste AI en productie om vragen te beantwoorden als:

  • Hoe verloopt dit op de pijplijn?
  • Is het schaalbaar? Moeten we het doel veranderen?
  • Hoe werkt het met onze praktijkgegevens?
  • Hoe pas je deze modellen aan?

Omdat fundamentele AI voornamelijk werkt op generieke domeingegevens, moet toegepaste AI het oppikken en ervoor zorgen dat het werkt op onze realiteit van chat of tickets, of het nu werkt met gedifferentieerde tonen of niet. Er is het onderzoek, dan zijn er de bevindingen in het product.

Wij geloven sterk in onze kwaliteitsinschattingssystemen. We geloven ook in reproduceerbaar en gezamenlijk onderzoek, en daarom een ​​paar maanden terug we hebben Open Kiwi gebouwd - een open-source framework dat de beste Quality Estimation-systemen implementeert, waardoor het heel gemakkelijk wordt om met deze modellen binnen hetzelfde raamwerk te experimenteren en te herhalen, en om nieuwe modellen te ontwikkelen.

We waren waarschijnlijk een van de eerste bedrijven die kwaliteitsschatting gingen gebruiken bij de productie en we hebben al heel lang onderzoek gedaan naar dit onderwerp. Dit betekent dat we betere modellen hebben en een beter begrip van het probleem dan andere bedrijven of onderzoekers die aan kwaliteitsschatting werken.

En de prijzen gaan naar ...

Dit is waarom ik erg blij was met ons herwonnen onze titel van beste mondiale kwaliteitschattingssysteem voor machinevertalingen op de conferentie voor wereldwijde machinevertaling eerder dit jaar. Niet alleen dat, maar we hebben ook de wedstrijd voor automatische post-editing gewonnen.

Het was om twee redenen erg belangrijk voor ons. De eerste is de impact die kwaliteitsinschatting heeft op onze productiepijplijn, het rendement op de investering die we eruit halen. En daarvoor maakt het niet echt uit of we deze of een andere wedstrijd winnen.

Maar aan de andere kant betekent het winnen van dergelijke prestigieuze prijzen erkenning voor het merk Unbabel, dat essentieel is om de aandacht van klanten en investeerders te trekken. Het is ook een belangrijke erkenning voor het AI-team, wiens werk soms moeilijk te begrijpen en te waarderen is. AI is een zeer hoog risico, hoge beloning. Je kunt een jaar werken en nergens komen. Zo werkte al het werk dat we deden aan onze menselijke kwaliteitsinschatting niet, omdat we daar gewoon niet de juiste tools voor hadden.

En dus zijn deze prijzen goed voor erkenning, om de bekendheid van de naam Unbabel in het bedrijfsleven en in de academische wereld te vergroten, maar ze zijn ook goed voor het moreel. Unbabel is een puur AI-bedrijf. We gebruiken niet alleen AI, we bouwen en ontdekken zelfs AI die nog niet bestaat. En om daar publiekelijk voor erkend te worden, betekent veel voor mij. Ik denk dat mijn 9-jarige, wannabe wiskundige zelf trots zou zijn.

Bron: https://unbabel.com/blog/best-machine-translation-quality-estimation/

Tijdstempel:

Meer van Unbabe