Konekääntämisen ratkaiseminen, askel kerrallaan

Lähdesolmu: 795289

Lapsena ajattelin, että kasvaisin matemaatikoksi tai fyysikoksi. Ymmärsin hyvin varhaisessa vaiheessa, että halusin opiskella ja tehdä tutkimusta tai jopa tulla opettajaksi jollakin noista aloista. En tiennyt mikä tekoäly on. Itse asiassa ensimmäisinä vuosina tietojenkäsittelytieteen ala-asteen opiskelijana tunsin monta kertaa, että minun pitäisi siirtyä matematiikkaan. Olen iloinen, etten.

Isoäitini ei oikeastaan ​​ymmärrä, mikä työni on, koska sinun on käytettävä Internetiä. Jos et, ja minä sanon sinulle, että Unbabelissa me saamme tietokoneet tekemään ihmisen toimia automaattisesti, sinä todennäköisesti vain istuisit siellä ja tuijottaisit tyhjästi minua.

Tavallaan en päätynyt aivan eri paikkaan kuin olin kuvitellut lapsena. Tarkoitan, että tämä koko konekäännöskenttä alkoi Warren Weaverin kanssa toisen maailmansodan jälkeen, kun matemaatikko Allen Turing mursi Enigma-koodin.

Ajatuksena on, että voimme kohdella kieltä koodina. Erona on, että koodit ovat muodollisia, yksiselitteisiä; ja mikä tekee käännöksen niin vaikeaksi, on nimenomaan epäselvyys.

Konekäännöksen tila

Joillakin ihmisillä on jonkinlainen tieto siitä, mitä Unbabel tekee: käännämme tietyllä kielellä olevan tekstin toiselle kielelle. Mutta muut eivät edes tiedä, mikä tekoäly on. Jotkut saattavat ajatella, että kaikki tekoäly on "robotti-asioita", mutta se ei ole sitä. Tekoäni jäljittelee ihmisten käyttäytymistä jollain tavalla, ja joissakin asioissa se on jopa parempi kuin ihmiset sitä.

Aloitetaan perusasioista: mitä koneoppimisjärjestelmät tekevät? Esität heille lähdeobjektin, tässä tapauksessa lauseen, ja pyydät heitä ennustamaan jotain, kohdelauseen.

Käännöksen vaikeus on, että kultakantaa ei ole. Kultastandardi tarkoittaa todellista totuutta. Jos yrität saada koneen havaitsemaan kuvat kysymällä "onko tämä kissa vai koira?", On olemassa kultainen totuus, koska tietty kuva olisi yksi tai toinen. Konekääntämisessä tätä ei ole, koska sinulla voi olla 20 erilaista käännöstä, jotka ovat yhtä hyviä. Se on paljon vaikeampaa aloittaa. Mikä on hyvä käännös ja mikä ei? On myös se, että kieli on erittäin epäselvä. Sanat voivat tarkoittaa hyvin erilaisia ​​asioita eri tilanteissa. Joten käännösongelma on suurelta osin ratkaisematta.

Jos tarkastelet syvemmälle konekääntämistä, huomaat, että se ei ole niin paljon parempi kuin muutama vuosi sitten, huolimatta siitä, mitä useimmat ihmiset ajattelevat. Aikaisemmat tilastollisten konekääntösysteemien tuotokset näyttivät hyvin luonnottomilta tai robottisilta. Nykyään ne saattavat kuulostaa sujuvammilta, mutta ne ovat vähemmän riittäviä kuin edelliset, joilla oli yleensä oikea sisältö, vaikka sitä voisi olla vaikeampi ymmärtää. Konekäännökset saattavat nykyään epäonnistua sisällöltään katastrofaalisesti, mutta silti kuulostaa sujuvalta. Kaiken kaikkiaan se on parempi järjestelmä.

Konekääntäminen on tullut pisteeseen, jossa voidaan ainakin ymmärtää tekstin ydin. Se on sujuvampaa huolimatta siitä, että mallit ovat edelleen hyvin perustiedot ja joilla on vähän kielitaitoa. He työskentelevät edelleen enimmäkseen eräänlaisella lauseella lauseen tasolla. Joten kuka tahansa, joka ajattelee, että konekäännös on ratkaistu, ei selvästikään ole käyttänyt sitä.

Unbabelille yritykseksi, joka myy sitä monikieliset tukiratkaisut suurille yrityksille, jotka ovat vuorovaikutuksessa tuhansien tai miljoonien asiakkaiden kanssa päivittäin, se aiheuttaa ongelmia, koska kun mainitset konekäännöksen, ihmiset ajattelevat heti sen tekemiä virheitä. Et voi vain tehdä tarinoita saadaksesi sen näyttämään konekäännökseltä täydelliseltä, se on missä se on tässä vaiheessa. Se vaatii yhä silmukan ihmistä antamaan sille ylimääräisen laadun.

Esimerkiksi chatissa on henkilö, joka todella puhuu toisen henkilön kanssa, mikä tarkoittaa, että voit toipua virheistä paljon nopeammin. Jos sanot jotain, jolla ei ole järkeä, toinen pää voi sanoa “mitä? En saanut sitä ”, ja yrität sitten käännöksen uudelleen.

Tämä tarkoittaa pohjimmiltaan sitä, että olet oma laadunarviointisi, koska päivän lopuksi haluamasi on toimiva vuoropuhelu.

Laadunarvioinnin merkitys

Laadun arviointi - mitä käytämme käännösjärjestelmän laadun arvioimisessa ilman referenssikäännösten tai ihmisen väliintuloa - on koneellisen käännöksen salaisuus. Itse asiassa jotkut ihmiset ovat väittäneet, että se voisi ratkaista ongelman "mikä on oikea käännös?", Koska nyt meillä on käytössä järjestelmä, joka arvioi kuinka hyvä tai huono käännös on. Se ei välttämättä tarkoita, että käännös on Ishayoiden opettaman oikea, mutta se on a oikea käännös.

Laadunarvioinnissa on kuitenkin samat vaikeudet kuin konekääntämisessä, mikä tarkoittaa, että voit odottaa samalla tarkkuustasoa. Konekääntämisen suurin ongelma on, että se tekee aina virheitä, koska kieltä on vaikea ymmärtää. Joko mallien vuoksi, jotka ovat aivan liian yksinkertaisia ​​laskentatehon vuoksi, tai siitä, että mikä tahansa koneoppimisjärjestelmä tekee virheitä, parhaat osakkeet ovat noin 90 prosentin tasolla. Se saattaa tuntua paljon, mutta jos ajattelet sitä, se tarkoittaa, että yksi kymmenestä lauseesta tulee olemaan väärä.

Laadun arviointi yrittää ennustaa noita vääriä lauseita tai ainakin yrittää arvioida, onko virhe kriittinen vai ei. Pohjimmiltaan se antaa meille mahdollisuuden käyttää konekäännöstä paljon suuremmalla varmuudella.

Olemme omistaneet Unbabelissa paljon aikaa laadun arviointiongelman ratkaisemiseen. Perusteellinen tekoälytiimi on se, joka on keskittynyt enimmäkseen siihen ja löytänyt uusia malleja. Sitten sovelletusta tekoälystä ja tuotannosta on tehty paljon työtä vastaamaan kysymyksiin, kuten:

  • Kuinka tämä toimii putkilinjalla?
  • Onko se skaalautuva? Tarvitseeko meidän muuttaa tavoitetta?
  • Kuinka se toimii käytännön tietojen kanssa?
  • Kuinka teet näiden mallien mukauttamisen?

Koska perustavaa laatua oleva tekoäly toimii enimmäkseen yleisen verkkotunnustiedon kanssa, sovelletun tekoälyn on otettava se vastaan ​​ja varmistettava, että se toimii chat- tai lipputodelluksellamme, jos se toimii eriytettyjen äänien kanssa tai ei. Siellä on tutkimusta, sitten työn tuloksia sen tuotteeseen.

Uskomme vakaasti laatuarviointijärjestelmiin. Uskomme myös toistettavaan ja yhteistyötutkimukseen, minkä vuoksi muutama kuukausi sitten Rakensimme Open Kiwi - avoimen lähdekoodin kehyksen, joka toteuttaa parhaat laatuarviointijärjestelmät, mikä on todella helppoa kokeilla ja toistaa näitä malleja samoissa puitteissa sekä uusien mallien kehittämistä.

Olimme luultavasti ensimmäisiä yrityksiä, jotka alkoivat käyttää laadunarviointia tuotannossa, ja olemme tutkineet aihetta jo pitkään. Tämä tarkoittaa sitä, että meillä on paremmat mallit ja parempi käsitys ongelmasta kuin muilla laadun arvioinnissa työskentelevillä yrityksillä tai tutkijoilla.

Ja palkinnot menevät…

Siksi olin hyvin onnellinen me palautti parhaamme maailmanlaajuisen konekäännöksen laadun arviointijärjestelmän tittelin konferenssissa maailman konekäännökselle aikaisemmin tänä vuonna. Paitsi että, voitimme myös kilpailun automaattisesta postieditoinnista.

Se oli meille erittäin tärkeä kahdesta syystä. Ensimmäinen on laatuarvioinnin vaikutus tuotantoputkistoon, siitä saamamme sijoitetun pääoman tuotto. Ja sillä ei ole väliä, voittammeko tämän tai muun kilpailun.

Toisaalta tällaisten arvostettujen palkintojen voittaminen tarkoittaa tunnustusta Unbabel-tuotemerkille, mikä on välttämätöntä asiakkaiden ja sijoittajien huomion saamiseksi. Se on myös tärkeä tunnustus tekoälytiimille, jonka työtä on joskus vaikea ymmärtää ja antaa tunnustusta. Tekoäly on erittäin korkean riskin, korkea palkkio. Voit työskennellä vuoden ja päästä mihinkään. Esimerkiksi kaikki työ, jonka teimme ihmisen laatua koskevaan arviointiin, ei toiminut, koska meillä ei vain ollut siihen oikeita työkaluja.

Joten nämä palkinnot ovat hyviä tunnustukselle, lisätä tietoisuutta Unbabel-nimestä liike-elämässä ja yliopistossa, mutta ne ovat hyviä myös moraalille. Unbabel on puhtaasti tekoälyyritys. Emme käytä vain tekoälyä, vaan rakennamme ja löydämme tekoälyä, jota ei vielä ole olemassa. Ja se, että minut tunnustetaan julkisesti, tarkoittaa minulle maailmaa. Luulen, että 9-vuotias wannabe-matemaatikkoni olisi ylpeä.

Lähde: https://unbabel.com/blog/best-machine-translation-quality-estimation/

Aikaleima:

Lisää aiheesta Poista paketti