Rezolvarea traducerii automate, un pas la un moment dat

Nodul sursă: 795289

În copilărie, am crezut că voi crește pentru a fi matematician sau fizician. Am înțeles foarte devreme că vreau să studiez și să fac cercetări, sau chiar să devin profesor, într-unul dintre acele domenii. Nu știam ce este AI. De fapt, în primii ani ca student la licență la Informatică, de multe ori am simțit că ar trebui să trec la matematică. Mă bucur că nu am făcut-o.

Bunica mea nu prea înțelege însă care este meseria mea, pentru că pentru a face asta trebuie să folosești internetul. Dacă nu o faci, și îți spun că, la Unbabel, facem computerele să facă acțiuni umane automat, probabil că ai sta acolo și te-ai uita în gol la mine.

Într-un fel, nu am ajuns într-un loc foarte diferit decât mi-am imaginat când eram copil. Adică, tot acest domeniu de traducere automată a început cu Warren Weaver după al Doilea Război Mondial, după ce Allen Turing, un matematician, a spart codul Enigma.

Ideea este că putem trata limba ca pe un cod. Diferența este că codurile sunt formale, lipsite de ambiguitate; iar ceea ce face traducerea atât de grea este tocmai ambiguitatea.

Starea traducerii automate

Unii oameni au cunoștințe despre ceea ce face Unbabel: traducem un text într-o anumită limbă într-o altă limbă. Dar alții nici nu știu ce este Inteligența Artificială. Unii ar putea crede că tot ceea ce face AI este „lucruri robot”, dar asta nu este tot. Ceea ce face AI este să mimeze comportamentul uman, într-un fel, iar în unele lucruri este chiar mai bun decât oamenii la aceasta.

Să începem cu elementele de bază: ce fac sistemele de învățare automată? Le prezinți un obiect sursă, în acest caz o propoziție, și le ceri să prezică ceva, o propoziție țintă.

Dificultatea traducerii este că nu există un standard de aur. Un etalon de aur reprezintă adevărul real. Dacă încercați să faceți ca o mașină să detecteze imagini întrebând „este o pisică sau un câine?”, există un adevăr de aur, deoarece o anumită imagine ar fi una sau alta. În traducerea automată, acest lucru nu există, deoarece puteți avea 20 de traduceri diferite care sunt la fel de bune. Este o problemă mult mai grea de la început. Ce este o traducere bună și ce nu este? Există, de asemenea, faptul că limbajul este foarte ambiguu. Cuvintele pot însemna lucruri foarte diferite în contexte diferite. Și astfel problema traducerii este în mare parte nerezolvată.

Dacă te uiți mai profund în traducerea automată, vei vedea că nu este cu mult mai bună decât era acum câțiva ani, în ciuda a ceea ce cred majoritatea oamenilor. Rezultatele anterioare ale sistemelor de traducere automată statistică păreau foarte nenaturale sau robotizate. Astăzi s-ar putea să sune mai fluent, dar sunt mai puțin adecvate decât cele anterioare, care în mod normal aveau conținutul potrivit, deși ar putea fi mai greu de înțeles. Traducerile automate din zilele noastre ar putea eșua catastrofal în ceea ce privește conținutul, dar încă sună fluent. Per total este un sistem mai bun.

Traducerea automată a ajuns într-un punct în care se poate înțelege cel puțin esenta textului. Devine din ce în ce mai fluent, în ciuda faptului că modelele sunt încă foarte elementare și au puține cunoștințe de limbă. Încă lucrează mai ales la un fel de propoziție pe nivel de propoziție. Deci, oricine crede că traducerea automată este rezolvată, în mod clar nu a folosit-o.

Pentru Unbabel ca companie, care o vinde soluții de asistență multilingvă pentru companiile majore care interacționează cu mii sau milioane de clienți în fiecare zi, reprezintă o problemă, deoarece de cele mai multe ori, când menționezi traducerea automată, oamenii se gândesc imediat la greșelile pe care le face. Nu poți să inventezi povești ca să pară că traducerea automată este perfectă, este locul în care este în acest moment. Încă necesită un om în buclă pentru a-i oferi acel punct în plus de calitate.

În chat, de exemplu, există o persoană care vorbește cu cealaltă persoană, ceea ce înseamnă că vă puteți recupera din erori mult mai rapid. Dacă spui ceva care nu are sens, persoana de la celălalt capăt ar putea spune „ce? Nu am înțeles asta”, iar apoi vei încerca din nou traducerea.

Acest lucru înseamnă practic că ești propria ta estimare a calității, pentru că, la sfârșitul zilei, ceea ce vrei este un dialog care funcționează.

Importanța estimării calității

Estimarea calității – ceea ce folosim pentru a evalua calitatea unui sistem de traducere fără acces la traduceri de referință sau intervenție umană – este secretul traducerii automate. De fapt, unii oameni au susținut că ar putea rezolva problema „care este traducerea corectă?”, deoarece acum avem un sistem care evaluează cât de bună sau proastă este o traducere. Nu înseamnă neapărat că o traducere este il corect, dar este a traducere corectă.

Dar estimarea calității suferă de aceleași dificultăți ca și traducerea automată, ceea ce înseamnă că vă puteți aștepta la același nivel de precizie de la ea. Cea mai mare problemă cu traducerea automată este că face întotdeauna greșeli, deoarece limbajul este foarte greu de înțeles. Fie datorită modelelor prea simple din cauza puterii de calcul, fie datorită faptului că orice sistem de învățare automată va face greșeli, cele mai bune acțiuni sunt în jur de 90 ceva la sută. Ar putea părea mult, dar dacă te gândești bine, asta înseamnă că una din zece propoziții va fi greșită.

Estimarea calității încearcă să prezică acele propoziții greșite sau cel puțin să încerce să judece dacă o eroare este critică sau nu. Practic, ne va permite să folosim traducerea automată cu un grad mult mai mare de încredere.

La Unbabel, ne-am dedicat mult timp rezolvării problemei de estimare a calității. Echipa fundamentală de inteligență artificială este cea care s-a concentrat mai mult pe ea, descoperind noi modele. Apoi, este multă muncă depusă din AI aplicată și producție, pentru a răspunde la întrebări precum:

  • Cum funcționează asta pe conductă?
  • Este scalabil? Trebuie să schimbăm obiectivul?
  • Cum funcționează cu datele noastre practice?
  • Cum faci adaptarea acestor modele?

Deoarece IA fundamentală funcționează în principal pe date de domeniu generice, AI aplicată trebuie să o preia și să se asigure că funcționează pe realitatea noastră de chat sau bilete, dacă funcționează cu tonuri diferențiate sau nu. Mai este cercetarea, apoi este prelucrarea constatărilor în produs.

Credem ferm în sistemele noastre de estimare a calității. De asemenea, credem în cercetarea reproductibilă și colaborativă, motiv pentru care acum câteva luni am construit Open Kiwi — un cadru open-source care implementează cele mai bune sisteme de estimare a calității, ceea ce face foarte ușor să experimentați și să repetați aceste modele în același cadru, precum și să dezvoltați noi modele.

Probabil am fost una dintre primele companii care au început să folosească estimarea calității în producție și am făcut cercetări pe această temă de foarte mult timp. Aceasta înseamnă că avem modele mai bune și o mai bună înțelegere a problemei decât alte companii sau cercetători care lucrează la estimarea calității.

Iar premiile merg la...

Acesta este motivul pentru care am fost foarte fericit ne-am recâștigat titlul de cel mai bun sistem global de estimare a calității traducerii automate la Conferința pentru traducerea automată mondială mai devreme anul asta. Nu numai atât, dar am câștigat și concursul de editare automată a postărilor.

A fost foarte important pentru noi din două motive. Primul este impactul pe care estimarea calității îl are asupra conductei noastre de producție, rentabilitatea investiției pe care o obținem din aceasta. Și pentru asta, nu prea contează dacă câștigăm această competiție sau orice altă competiție.

Dar, pe de altă parte, câștigarea unor astfel de premii prestigioase înseamnă recunoaștere pentru brandul Unbabel, care este esențial pentru a atrage atenția clienților și investitorilor. Este, de asemenea, o recunoaștere importantă pentru echipa de inteligență artificială, a cărei muncă este uneori greu de înțeles și de a acorda merit. AI are un risc foarte mare, o recompensă mare. Poți să lucrezi un an și să nu ajungi nicăieri. De exemplu, toată munca pe care am făcut-o cu privire la estimarea calității umane nu a funcționat, pentru că pur și simplu nu aveam instrumentele potrivite pentru asta.

Și astfel aceste premii sunt bune pentru recunoaștere, pentru a crește gradul de conștientizare a numelui Unbabel în afaceri și în mediul academic, dar sunt bune și pentru moral. Unbabel este o companie pur AI. Nu folosim doar AI, de fapt construim și descoperim AI care încă nu există. Și să fii recunoscut public pentru asta înseamnă lumea pentru mine. Cred că eul meu de 9 ani, aspirant matematician, ar fi mândru.

Sursa: https://unbabel.com/blog/best-machine-translation-quality-estimation/

Timestamp-ul:

Mai mult de la Unbabel