Dlaczego stworzyliśmy COMET, nową strukturę i metrykę do automatycznej oceny tłumaczenia maszynowego

Węzeł źródłowy: 748221

Języki ludzkie są tak różnorodne i złożone, jak jest ich mnóstwo ponad 6,900 różnych języków używane na całym świecie. Subtelności i niuanse różnych języków - od czasu przez ton po idiom - sprawiają, że tłumaczenie między nimi jest jednym z największych i najciekawszych wyzwań, jakie podjęliśmy jako gatunek. 

Ta złożoność jest również powodem, dla którego wielu od dawna wierzy, że tłumaczenie maszynowe po prostu nigdy nie sprosta wymaganiom jakości ludzkiej, ani nawet nie zbliży się do niej. 

Ostatnie kilkadziesiąt lat spędziłem na studiowaniu przetwarzania języka naturalnego. Zbadałem i opracowałem algorytmy obliczeniowe i procesy tworzenia automatycznych systemów tłumaczeniowych oraz oceny ich dokładności i wydajności. Te doświadczenia pozwoliły mi zrozumieć, że rynek potrzebuje nowej struktury i miernika do automatycznej oceny tłumaczenia maszynowego. 

Zawsze będziemy potrzebować ludzie w pętli pomoc w tworzeniu i szkoleniu systemów tłumaczenia maszynowego, identyfikowaniu i poprawianiu błędów oraz wprowadzaniu korekt do danych i algorytmów używanych do ich szkolenia i udoskonalania. Jednak nasz ostatni projekt, COMET (Crosslingual Optimized Metric for Evaluation of Translation), oferuje nowe podejście do pomiaru i poprawy jakości MT w czasie. Właśnie przedstawiliśmy praca naukowa opisując naszą nowatorską pracę na konferencji EMNLP-2020 w listopadzie. Nasze wyniki w artykule wykazały, że COMET jest obecnie najnowocześniejszy. COMET został niedawno zatwierdzony jako wskaźnik o najwyższej wydajności przez Piąta konferencja na temat tłumaczenia maszynowego 2020 (WMT20). 

W tym poście wyjaśnię, dlaczego to ma znaczenie, podzielę się tym, jak działa COMET i przekonam, że wysokiej jakości MT jest nie tylko teoretycznie możliwe, ale jest bliższe rzeczywistości niż kiedykolwiek. 

Jakość tłumaczenia ma znaczenie, ponieważ liczą się klienci

Jakość MT ma znaczenie, ponieważ liczą się klienci - czyli ludzie. Każda firma, która chce przetrwać i prosperować w 2020 roku i później, musi rozważyć, w jaki sposób będzie docierać do klientów i wspierać ich w ich ojczystych językach. W sumie, 40 procent klientów nie kupi w innych językach. I 96 procent klientów na całym świecie stwierdzają, że obsługa klienta jest kluczowym czynnikiem przy wyborze marek, które preferują i którym są lojalni w zakresie swoich produktów i usług.

Umożliwienie globalnego biznesu i zapewnienie wysokiej jakości obsługi klienta bez względu na język, którym mówią, jest racją bytu Unbabel. Nasz ostateczny cel? Pokonaj globalne bariery językowe i kulturowe i stań się światową warstwą tłumaczenia.

Może się to wydawać wyniosłe, ale to misja, w którą wierzymy. 

Jak więc osiągnąć wysoką jakość MT? Zaczyna się od skutecznego sposobu zmierzyć dokładność i jakość każdego tłumaczenia. Jak mówi dobrze znane przysłowie: „nie możesz poprawić tego, czego nie możesz zmierzyć”.  

Oczywiście jednym z wielu wyzwań związanych z mierzeniem jakości tłumaczenia jest właśnie to język jest niejednoznaczny i subiektywny. Nie oznacza to jednak, że jakości tłumaczenia nie można zmierzyć. 

Powszechnym podejściem do ilościowego określania dokładności tłumaczenia jest poproszenie tłumaczy i osób dwujęzycznych o identyfikację i ocenę błędów w tłumaczeniu na podstawie ich wagi.

Na przykład:

  • Drobne problemy: Nie wpływają na cel ani na zrozumiałość, ale mogą sprawić, że treść będzie mniej atrakcyjna lub natywna.
  • Główne kwestie: Wpływają na cel lub zrozumiałość, ale podstawowe znaczenie i ogólny cel tekstu źródłowego są zachowane po przetłumaczeniu.
  • Krytyczne problemy: Powodują poważne zmiany lub pominięcia o zasadniczym znaczeniu i niosą ze sobą ryzyko negatywnych skutków, które mogą mieć konsekwencje dla zdrowia, bezpieczeństwa, prawne lub finansowe. 

W ostatnich latach pojawił się jeden dobrze rozwinięty model kategoryzacji i punktacji błędów tłumaczenia, znany jako „Wielowymiarowe wskaźniki jakości (MQM). ” Mając takie podstawowe ramy, możemy zacząć mierzyć jakość tłumaczenia, nawet jeśli uznamy, że sam język jest subiektywny i zazwyczaj nie ma jednej poprawnej „Złoty standard” w tłumaczeniu. MQM jest niezwykle przydatne do wykrywania i kwantyfikacji błędów, ale wymaga przeszkolonych ekspertów. Dlatego jest powolny i drogi. Oznacza to, że ma ograniczoną wartość jako narzędzie pomiaru i kierowania szkoleniem i rozwojem nowoczesnych systemów tłumaczenia maszynowego o wysokiej dokładności. W tym celu potrzebujemy automatycznego miernika jakości tłumaczenia, który może generować wyniki jakości, które dokładnie korelują z ocenami ekspertów, takimi jak MQM. 

Tam, gdzie obecne wskaźniki jakości tłumaczenia maszynowego są niewystarczające

W ciągu ostatnich 20 lat opracowano kilka różnych zautomatyzowanych mierników do pomiaru jakości tłumaczenia maszynowego, z różnym skutkiem. Powszechnie stosowane wskaźniki, takie jak BLEU, chrF i METEOR - ten ostatni, który sam wymyśliłem około 16 lat temu - zostały dogłębnie zbadane i ulepszone. Chociaż wskaźniki te są bardzo przydatne na wcześniejszych etapach MT, są obecnie w dużej mierze przestarzałe i mają ograniczoną wartość w przypadku obecnej technologii sztucznej inteligencji, która napędza MT. 

Więc gdzie im się nie udało? Do tej pory miary oceny jakości MT opierały się na ocenie podobieństwa między tłumaczeniem generowanym maszynowo a tłumaczeniem odniesienia generowanym przez człowieka. Skupili się na podstawowych funkcjach na poziomie leksykalnym. Zasadniczo oznacza to zliczanie pasujących znaków, słów lub fraz między MT a tłumaczeniem referencyjnym. Jednak z założenia w dużej mierze nie potrafią rozpoznać i uchwycić podobieństwa semantycznego poza poziomem leksykalnym.

Podstawowym problemem jest to, że te podejścia nie wychwytują semantycznego podobieństwa między tłumaczeniem generowanym przez MT a tłumaczeniem odniesienia przez człowieka na poziomie wystarczającym do dokładnego dopasowania ilościowych ocen ludzkich ekspertów (takich jak MQM). Teraz, gdy nasze systemy MT są znacznie lepsze niż wcześniej, te wcześniejsze wskaźniki często nie rozróżniają już poprawnie lepszych i gorszych tłumaczeń, a w konsekwencji między lepszymi i gorszymi systemami tłumaczeniowymi.

Ścieżka COMET i dlaczego ją uruchomiliśmy

KOMETA to nowa struktura neuronowa (czyli zestaw algorytmów) do uczenia i uruchamiania wielojęzycznych modeli oceny MT. To fajny sposób na powiedzenie, że jest to nowy system, który może pomóc ocenić i przewidzieć jakość tłumaczeń generowanych maszynowo na wiele różnych języków. 

Oto, co sprawia, że ​​jest nowy i inny: COMET został zaprojektowany, aby się tego nauczyć przewidywać ludzkie osądy jakości MT. Czyni to za pomocą systemu neuronowego, aby najpierw odwzorować tłumaczenie wygenerowane przez MT, tłumaczenie odniesienia i tekst w języku źródłowym na neuronowe reprezentacje znaczenia. Następnie wykorzystuje te reprezentacje, aby nauczyć się przewidywać wynik jakości, który jest wyraźnie zoptymalizowany pod kątem korelacji z ludzkimi ocenami jakości tłumaczenia. 

Powstały model neuronowy może być następnie użyty jako miernik do oceny jakości dowolnego konkretnego silnika MT i zautomatyzowania procesu oceny jakości (zamiast wymagać od eksperta człowieka do dodawania adnotacji do każdego tłumaczenia). Uzupełniamy to podejście okresowym człowiekiem wielowymiarowe wskaźniki jakości (MQM) adnotacje potwierdzające jakość oraz potwierdzające i poprawiające przewidywania COMET w czasie. Jak powiedziałem wcześniej, ludzie zawsze będą na bieżąco - i to nie jest złe!

COMET nie był wcześniej możliwy. Wykorzystuje niedawne przełomy w modelowanie języków neuronowych na dużą skalę, co skutkuje wielojęzycznymi i elastycznymi modelami oceny MT, jakich świat nie widział wcześniej.

COMET stosuje również unikalne podejście polegające na włączeniu informacji zarówno z tekstu źródłowego, jak i tłumaczenia referencyjnego na język docelowy, aby dokładniej przewidzieć jakość MT. Podczas naszej oceny COMET stwierdziliśmy, że nasze modele wyszkolone w ramach platformy znacznie przewyższały wszystkie inne metryki pod względem ich korelacji z ocenami ludzkimi. COMET można również dostosować i zoptymalizować, aby uwzględnić różne rodzaje ocen jakości MT (takich jak wyniki MQM lub odległość po edycji).

Innymi słowy, jesteśmy coraz bliżej możliwości dokładnej oceny jakości tłumaczenia zarówno przy użyciu maszyny, jak i człowieka. 

Jedną z najfajniejszych rzeczy w COMET jest to, że pomaga nam zrozumieć, które modele MT działają najlepiej. Nawet najnowsze wkłady w ocenę MT mają trudności z rozróżnieniem między systemami o najwyższej wydajności. COMET może dokładnie zidentyfikować lepszy system, nawet jeśli wydajność obu systemów jest bardzo podobna. Zapewni to bardzo przydatne narzędzie do ciągłego ulepszania MT, ponieważ możemy teraz łatwo rozróżnić modele i wybrać lepszy. 

Jak zdobyć COMET

Właśnie wydaliśmy wersję open source platformy COMET i przeszkoliliśmy modele, aby przynosić korzyści szerszej społeczności MT, i będziemy nadal rozwijać i ulepszać te modele przez następny rok. Kod jest dostępny pod adresem https://github.com/Unbabel/COMET. Jest łatwy w instalacji i uruchomieniu, zachęcamy wszystkich programistów i użytkowników MT do samodzielnego wypróbowania!

Klienci Unbabel odniosą bezpośrednie korzyści z COMET, ponieważ będziemy go używać do udoskonalania modeli i systemów, z których korzystamy z biegiem czasu, oraz do ciągłego doskonalenia jakości naszych tłumaczeń dla zespołów obsługi klienta. (Tak, tutaj jemy własną karmę dla psów!)

Mamy nadzieję, że COMET stanie się nowym standardowym miernikiem do pomiaru jakości modeli MT.

Tak jak my to widzimy, kiedy próbujesz zestrzelić METEOR - możesz po prostu wylądować na KOMETZE.

możesz również być zainteresowany:

Źródło: https://unbabel.com/blog/why-we-believe-high-quality-machine-translation-really-is-possible/

Znak czasu:

Więcej z Niebabel