Translation Brawls: What Happens When Annotators Disagree?

Ponovno objavil Platon

Spremljevalci: 0

Obstaja ta rek o tem, kako če daste isto besedilo 10 različnim prevajalcem, bodo ustvarili 10 različnih, enako veljavnih prevodov. Navsezadnje je jezik zelo subjektiven, zato pri prevodu ni nobenega splošno priznanega odgovora. In tako imajo jezikoslovci zelo močna mnenja o tem, kateri prevod najbolje izraža prvotni pomen sporočila.

Ker iščemo najvišjo kakovost prevajanja, nam to predstavlja velik izziv. Izkazalo se je, da enako velja za označevanje napak pri prevodu. Komentarji se ne strinjajo vedno in ne zato, ker je bila napaka pri prevodu napačno kategorizirana, temveč zato, da je isto napako mogoče kategorizirati različno, odvisno od tega, pod kakšnim kotom jo gledate. Torej, kako lahko kdaj upamo, da bomo svoje modele usposobili za natančnost, ko se niti sami ne moremo strinjati, kaj je narobe? In ali bi bila ta raznolikost mnenj lahko dobra?

Primeri nadzorovanega učenja

Najprej moramo stopiti korak nazaj: zakaj nas zanima, kaj imajo povedati opomniki?

Razlog je preprost: trenutno so skoraj vse uspešne metode umetne inteligence nadzorovane metode. To pomeni, da se učijo iz primerov. Za prepoznavanje slik so primeri slike, označene z omejevalnimi polji z nalepkami (ta del slike je mačka, ta del slike je pes itd.), Za prepoznavanje govora so primeri posnetki govora s prepisom besedila, za strojno prevajanje pa to pomeni stavke s primeri prevodov.

Nekatere naloge zahtevajo razvrstitev besed ali celotnih stavkov v fiksne razrede - izziv s prepoznavanjem imenovanih entitet (NER) je prepoznati dele stavka, ki označujejo nekatere zanimive razrede, na primer kraj, ime, datum.

Primer vrste podatkov, ki se uporabljajo in proizvajajo v NER: LOC je lokacija, ORG je organizacija in NORP je narodnost ali verske ali politične skupine. Ta poseben primer je napoved Spacyjev velik angleški model o novinski članek od Eaterja. Upoštevajte, da je entiteta lahko sestavljena iz več besed in da je bil zadnji primerek Corone pomotoma označen kot lokacija.

Ti označeni podatki so temelj katere koli aplikacije za strojno učenje, ki je uspešna v resničnem svetu, saj ti primeri ne usposobijo le modelov - ocenjujejo tudi, ali so se modeli resnično naučili zadevne naloge. Navsezadnje ne želimo le, da kopirajo primere, ki so jim bili prikazani, temveč jih posplošimo na nevidne primere. Zato vedno obdržimo številne primere, ki se uporabljajo za kasnejše preizkušanje modelov.

Pomembno si je zapomniti, da te primere ponujamo mi, ljudje! Skrbno ustvarimo primere prevodov, odločimo se za kategorije slik, izberemo taksonomijo razredov, ki gredo v sistem NER. Temu naporu lahko rečemo postopek ustvarjanja primerov z nalepkami, pripisovanje in oseba, ki to počne, označevalnik.

Pri Unbabel uporabljamo Večdimenzionalne meritve kakovosti MQM za oceno kakovosti naših prevodov. Komentarji so velik del procesa - izvajajo označevanje napak, postopek, ki za vsako nakazano napako pri prevajanju poudari obseg napake; uvrstitev s seznama vprašanj in na koncu dodelitev resnosti (manjše, večje in kritične). To je dvojezični napor - opomba mora biti usposobljena v obeh jezikih.

Njihova naloga je v različnih velikostih: nekaj je natančno označenih napak, na primer, ko ocenjujejo, ali so besede napačno prevedene ali preveč dobesedne. Toda včasih pripis napake obstaja na višji ravni, na primer, ko presodijo, ali je ta stavek boljši prevod od tega drugega stavka (razvrstitev) ali je ta stavek 9/10, drugi pa 3/10 ( neposredna ocena). V nekaterih primerih, zlasti ko gre za situacije, ko so opravili neposredno oceno, je težko razumeti, kaj je spodbudilo sodbo opombe. To je eden od razlogov, zakaj smo še posebej navdušeni nad pristopom MQM: dobimo veliko vpogleda v zaznano naravo napak.

Ker je tu stvar: opombe se ne strinjajo vedno. Ko imamo na krovu nove opombe, ni nenavadno, da opazimo nesoglasja, pri katerih v nekaterih primerih en opomnik trdi, da gre za manjšo napako, eden trdi, da je večji, drugi pa kritičen! In ti opomniki so že visoko usposobljeni, to pa ni lahka naloga.

Nesoglasje se zgodi iz več razlogov. Najprej je naloga pripisovanja sama po sebi subjektivna. Komentarji imajo lahko preprosto različne nastavitve: nekateri imajo raje prevode, ki kažejo večjo slovnično tekočnost, drugi pa dajejo večjo vrednost ohranjanju pomena v prevodu.

Toda obstajajo še drugi razlogi. Navodila kljub najboljšim prizadevanjem in nenehnemu uglaševanju niso vedno kristalno jasna - ne moremo predvideti vseh primerov, v katerih bi bilo treba uporabiti določeno oznako, jezik pa je dvoumen in predstavlja izzive, ko ga poskušate razvrstiti.

Poleg tega ljudje delamo napake. Veliko. Znano so tudi posejani s pristranskostmi, tako na individualni ravni (npr. dosledno jim je bolj všeč eno branje / interpretacija kot drugo) in na skupinski ravni, v bolj družbeno-kulturnem smislu izraza.

Nazadnje se lahko celo kakovost usposobljenega opomnika razlikuje - poskusite opraviti jezikovni test v svojem maternem jeziku, ko ste utrujeni ali moteni.

A čeprav je nesoglasje nekoliko normalno, vsekakor lahko postane problem. Če se ne strinjajo glede resnosti napake, kako naj vemo, za kaj gre?

Merilni (ne) dogovor

Za začetek bi lahko uporabili funkcije postopka označevanja za merjenje kakovosti. Toda to je lahko problematično. Za primer vzemimo čas, ki ga opomnik potrebuje za dokončanje naloge - zelo enostavno količino, ki jo je treba pridobiti. Predvidevamo, da je hiter opomnik verjetno naglic in zato nagnjen k napakam, medtem ko je opomba, ki si vzame malo več časa, le temeljita. Mogoče pa je tudi, da je hiter opomba le izkušen in učinkovit, medtem ko se počasen opomnik samo vleče.

Zelo enostavno je razločevati opombe po preprostih lastnostih. Toda kadar so metapodatki bolj nazorni za nalogo, na primer obnašanje tipk v urejevalniku, lahko postanejo zelo napovedni glede kakovosti, kot kaže Prevajalec2Vec, model, razvit pri Unbabel.

Namesto da bi si ogledali vedenjske podatke, lahko pogledamo same napovedi. Če zberemo več sodb o isti postavki, lahko naredimo nekaj več kot le karakteriziramo - lahko primerjamo! In tu nastopi sporazum o mednastavitvah. Dogovor o medpomnilnikih se običajno meri s statističnimi podatki, ki v enem samem številu povzemajo stopnjo soglasja med različnimi opombami. Vzemite surovo soglasje, to je, kolikokrat se opomniki strinjajo o svoji presoji. To predstavlja težavo: če ljudje dovolj pogosto izbirajo naključne oznake, se bodo v določenem trenutku zagotovo strinjali. In tega ne želimo šteti. Prav zato Cohenova kappa uživa veliko večjo priljubljenost: popravi proti tem naključnim sporazumom.

To zamisel je mogoče nadalje razširiti, da se izmeri skladnost opombe ali z drugimi besedami dogovora med opombami. Če je na isti postavki več sodb iste osebe - po možnosti z nekaj časa vmes -, se lahko iste meritve kot zgoraj uporabijo za merjenje opombenika proti sebi.

Besedilo	Ocena žalosti	Sporazum
Indijski Taj Mahal dobi lifting	8	0.7
Po potovanju v Iraku Clinton predlaga vojne meje	12.5	- 0.1

Ilustracija dogovora med komentatorji (-1 do 1) na jasnem primeru (prvi) in vprašljivem primeru (drugi) ocene razpoloženja (0 do 100), povzeto po Jamison in Gurevych (2015). Drugi primer je primer, ko se skladnost naloge in oznak poruši, ker: »Je vojno območje žalostno ali samo slabo? ", Medtem ko je na drugi strani: a omejiti na vojni ne dobro stvar? Ta ugovor se odraža v oceni dogovora, ki kaže, da pri presojah opomnikov skoraj ni bilo korelacije (0 pomeni št korelacija).

Na koncu vam lahko te meritve pomagajo razumeti kakovost vaših podatkov. Zagotavljajo vam meritev, ki lahko vodi pri sprejemanju odločitev: Ali morate določiti nekatere označevalce? Ali morate zavreči določene primere? A naj vas ne zavede: vse meritve imajo pomanjkljivosti in Cohenova kappa ni nobena izjema.

Se strinjate, da se ne strinjate?

Ali bi morali vedno kaznovati razlike v presoji? Nekatere naloge označevanja podatkov so same po sebi dvoumne in pri teh nam lahko nestrinjanje nekaj pove. Razmislite o tem primeru:

Izvleček primera zapisov MQM v angleško-nemškem jeziku dveh različnih opomb. Rumena je a mladoletnika napaka, rdeča a kritično eno. Primer izhaja iz interno uporabljene testne serije, ki se uporablja za usposabljanje in ocenjevanje opomb. (Vizualizacija je bila ustvarjena s prilagoditvijo Displaciranost.)

Izvorni stavek se glasi: "Ali mi lahko dodate tudi novi e-poštni naslov, ki bi ga želeli priložiti vašemu računu." Jasno je, da imajo opomniki različne pristope, z enim jasnim stališčem (beseda neuen) in enim velikim nesoglasjem: zadnji del stavka. MQM, ki je posledica drugega pripisa, je 70, medtem ko je rezultat prvega pripisa 40, kar ponazarja velik vpliv kritične napake na končni rezultat.

V tem primeru imamo raje drugo opombo. Prvi opomnik trdi, da je zadnji del stavka nerazumljiv, kar po smernicah MQM pomeni, da natančne narave napake ni mogoče določiti, ampak da povzroča večjo okvaro tekočnosti. To je napaka, ki bi jo uporabili za popačeno zaporedje znakov in številk, na primer vZavora, od koder ta કુતારો િસ S149235 del numbr ,,.”, Kar ni nujno tisto, kar se zgodi v zgornjem stavku.

Lahko pa trdimo, da je tu zanimivo vprašanje. Če zadnji odsek prevoda vsebuje toliko napak, da jih je skoraj nemogoče razumeti, ali to ne pomeni "velikega razpada tekočnosti"?

This example is taken from an experiment in which we compare and align annotators. Because both annotators are competent, and the source of disagreement can be understood, the step that follows the above observation is one of calibration: to make sure that all annotators are on the same page — with us and with each other.

Sprejetje kaosa

Ko se spopademo s tovrstnimi nesoglasji, lahko vedno nekaj storimo, da jih omilimo. Včasih lahko nesoglasje zmanjšate tako, da samo zagotovite več navodil. Tu gre za vlaganje več človeških ur, razumevanje, katere oznake in katere naloge povzročajo nesoglasje, rešitev pa lahko vključuje premislek o nalepkah, orodjih, spodbudah in vmesnikih. To je preizkušen in zaupanja vreden pristop tukaj pri Unbabel.

Ali pa prosite druge strokovnjake, da popravijo vaše podatke. Ko je bilo to pred kratkim narejeno za klasično in še vedno uporabljeno Nabor podatkov NER, raziskovalci so v več kot 5 odstotkih testnega stavka našli napake na etiketah. To se morda ne sliši zelo pomembno, toda to je precej veliko za nabor podatkov, kjer dosegajo najsodobnejše metode uspešnosti več kot 93 odstotkov!

Primer popravkov Wang in sod. (2019) za nabor podatkov NER CoNLL03. (Prirejeno iz Wang et al. Z uporabo Displaciranost)

Zanimiv pristop je združitev sodb - če lahko dobite več pripisov na isti podatkovni postavki, zakaj jih ne poskusite združiti v eno?

Zanašamo se na strokovnjake, ker menimo, da so bolj natančni, temeljiti in navsezadnje zanesljivi. Ker se opombe, ki jih uporabljamo, ukvarjajo s specializirano taksonomijo napak in za pravilno uporabo zahtevajo odlično raven razumevanja jezika, se zanašamo na visoko usposobljene opombe.

Tu pa je fascinantno: pri nekaterih nalogah, ki ne uporabljajo zelo specializirane tipologije ali prevzemajo specializirano vrsto znanja, je združena presoja več nestrokovnjakov enako zanesljiva kot posamezna sodba strokovnjaka. Z drugimi besedami: dovolj nestrokovnjakov je povprečno en strokovnjak. Število nestrokovnjakov, ki je za to potrebno, je lahko presenetljivo majhno. Ta vrsta kolektivnega znanja je na primer zgradila Wikipedijo.

Prevzemite nalogo prepoznavanje besedilnih izrazov (RTE). Besedilo je logično razmerje med dvema besedilnima fragmentoma - razmerje velja, kadar resnica enega stavka izhaja iz drugega. Na primer: “Cene surove nafte upadajo"Pomeni, da"Cene nafte padajo"; ne pomeni, da „Vlada bo dvignila cene nafte«(Prirejeno po Snow et al., 2018).

Združevanje sodb več nestrokovnjakov v sodbe enega samega izvedenca (zelena črtkana črta). Prirejeno po Snow et al. (2008)

Tu vidimo, kako lahko združevanje sodb teh nestrokovnjakov izboljša natančnost pripisov (črna črta). In lahko ga še okrepimo s tehtanjem vsake nestrokovne presoje s samodejno določenim rezultatom, ki ga lahko izračunamo na podlagi njihovega dogovora s strokovnjakom in učinkovito popravimo njihove pristranskosti, kot kaže modra črta.

Namesto da svoje opombe tehtate z zaupanjem, lahko poskusite tudi tehtati svoje primere zaradi njihove težavnosti. Na primer z dodelitvijo manj pomemben za enostavne primere - ali še bolj strog: avtor jih popolnoma odstranili. Lepota zgornjih dveh pristopov je v tem, da je mogoče same modele uporabiti za identifikacijo teh kandidatov.

Vse skupaj je težko odstraniti vse dvoumnosti. Vzemimo prevod: za en stavek je več (morda zelo veliko) veljavnih prevodov, pri čemer ima vsak prednost drugačen vidik kakovosti prevoda - samo pomislite na več prevodov romana med prevajalci ali celo v desetletjih. To je izrecno upoštevano pri ocenjevanju prevajalskih sistemov, kjer velja za najboljšo prakso vedno upoštevajte več veljavnih referenčnih prevodov pri uporabi samodejne metrike. Po drugi strani pa pri usposabljanju modelov strojnega prevajanja ostaja odprto vprašanje, kako spodbujati raznolikost ali širše: kako ravnati s temeljno negotovostjo pri prevajalski nalogi.

Izkazalo se je, da preveč strinjanja tudi za vaše modele ni dobro. Ko se to zgodi, lahko opomniki začnejo pustite za seboj enostavne vzorce, tako imenovani "artefakti opomb", ki jih modeli zlahka poberejo. Težavo povzročajo funkcije v vhodnem primeru, ki so močno povezane z izhodno oznako, vendar ne zajemajo ničesar bistvenega glede naloge. Na primer če vse slike volkov na treningu kažejo sneg in vse slike haskijev ne, potem je to zelo enostavno pobrati - in prav tako lahko prevarati. Modeli ne uspejo, ob predpostavki, da je pomanjkanje snega tisto, kar je značilno za haskija.

Izkazalo se je, da ima jezik svojo različico snega, kot so odkrili za a nabor podatkov v naravnem jeziku, splošna različica RTA. Nabor podatkov je del zelo priljubljeno merilo za usposabljanje in ocenjevanje sistemov za razumevanje jezika ki zagotavlja "metriko z enim številom, ki povzema napredek pri raznovrstnem naboru takšnih nalog", in ki je bila pomembno gonilo trenda za večji, močnejši, hitrejši modeli.

Prostor	Ženska, ki prodaja bambusove palice, se pogovarja z dvema moškima na nakladalnem pristanišču.
Izkoriščanje	obstajajo vsaj 3 ljudje na nakladalnem pristanišču.
Nevtralna	Ženska prodaja bambusove palice za pomoč pri oskrbi svoje družine.
Protislovje	Ženska je ne jemal denar za katero koli palico.

Primeri naravnega sklepanja (NLI), stavki, ustvarjeni iz predpostavke z uporabo preprostih hevristik. (Povzeto po Gururangan et al. (2018).) Komentator dobi predpostavko in sestavi stavek za vsakega od treh logičnih odnosov (zapletenost, nevtralnost in protislovje). Ustvarjeni stavek se imenuje hipoteza. Naloga strojnega učenja je predvideti razmerje glede na predpostavko in hipotezo.

Primere v tem naboru podatkov ustvarjajo ljudje, ki pa se v tem procesu pogosto zanesejo na preprosto hevristiko. Rezultat je nabor podatkov, ki nesorazmerno vsebujejo hipoteze, ki nasprotujejo predpostavki ne, nihče, ne, nikoli in nič, medtem ko so iz njih izhajale hipoteze, prežete s hipernimi, kot so žival, instrument in na prostem posplošiti čez pes, kitara in plažaali približne številke, na primer vsaj trije Namesto dva. Ni čudno, da je veliko primerov je mogoče natančno napovedati samo iz hipoteze: vse, kar model potrebuje, je, da ugotovi prisotnost takih besed! In ker se različni opomniki poslužujejo različnih taktik, modelu pomaga vedeti, kateri opomnik je ustvaril primer, medtem ko se trudi pravilno napovedati primere iz novih opomb.

V praksi bo učenje te vrste odnosov preprečilo posploševanje primerov, ki te korelacije ne kažejo. In to posploševanje je točno tisto, za čimer se trudimo. Saj nočeš biti pravi iz napačnih razlogov: zelo težko se boste prevarali s kontradiktorno zgrajenimi primeri. In najboljša rešitev za to težavo v naboru podatkov je lahko ostra, kot v zgornjem primeru, kjer so se za to odločili ne vključi v drugo ponovitev referenčne vrednosti - hvalevreden primer pozornosti do napredovanja spoznanj v naši skupnosti.

Na neki točki boste morali sprejeti kaos. Raznolikost podatkov je dobra stvar, zato bi jo morali ceniti. S tega vidika nestrinjanje opomnikov je signal, ne hrup. Dvoumnost bi lahko celo postale eksplicitna značilnost naših modelov - pristop, ki je že bil uspešno uporablja pri ocenjevanju kakovosti sistemov za strojno prevajanje.

Kazen	Ocena stavka	Pomen	Ocena etikete
Udomačitev rastlin se je skozi stoletja izboljšalo odpornost na bolezni.	0.63	izboljšanje ali upadanje	0.83
		vzrok za napredek	0.68
Ples vključuje upogibanje in ravnanje kolena, kar mu daje pridih kubanskega gibanja.	0.24	preoblikovanje	0.50
		urejanje	0.30
		gibanje telesa	0.30
		povzroči gibanje	0.25

Izrecna dvoumnost v naboru podatkov o semantiki okvirja (iz Dumitrache et al., 2019). Prvi primer se razmeroma lepo ujema s kategorizacijo, kar dokazuje visoko zaupanje tako v oznake kot v celoten stavek. Drugi primer kaže na veliko večje prekrivanje nalepk, saj ga lahko do neke mere razumemo kot kombinacijo vsake od njih.

Če naredite še en korak naprej, se lahko odločite ustvarite nabor podatkov, ki namenoma vsebuje dvoumnosti. Instead of providing a single label for data-points, annotators are allowed to provide multiple labels, and instead of a single annotator per item they request judgments from multiple annotators. This multitude of judgements allows you to create a dataset with multiple correct answers, each weighed by a disagreement-scores that indicates the confidence in that label.

Vzemite zgornji primer, ki prikazuje rezultate tega prizadevanja. Naloga je prepoznavanje več verjetnih čutil besed (»okvirjev«) in zaznate negotovost, ki obdaja vsak element. Ta negotovost se izraža z utežmi, dodeljenimi razredom in stavkom (Dumitrache et al., 2019). Ocena nalepk je stopnja, v kateri so se opomniki strinjali z eno samo nalepko, ponderirano s kakovostjo opombe, ocena stavka pa je stopnja, v kateri so se vsi opomniki strinjali glede vseh oznak v stavku.

Anca Dumitrache in njeni sodelavci so v svojih raziskavah "našli veliko primerov, ko se semantika posameznih okvirjev dovolj prekriva, da postane sprejemljiva alternativa za razlago stavka." Trdi, da ignoriranje te dvoumnosti ustvarja preveč samovoljen cilj za usposabljanje in ocenjevanje sistemov za obdelavo naravnih jezikov: "Če se ljudje ne morejo strinjati, zakaj bi pričakovali, da bo odgovor stroja drugačen?"

In res, naše raziskave se nenehno razvijajo v tej smeri. Ta raznolikost pripisov nam dejansko pomaga pri izdelavi boljših oznak, boljših orodij in navsezadnje boljših modelov strojnega učenja. In čeprav nekdo, ki je precej organiziran, tega običajno ne bi priznal, včasih preprosto prenehaš skrbeti in se naučiš sprejemati kaos.

Viri

Lora Aroyo, Chris Welty, 2015, "Resnica je laž: množica resnic in sedem mitov človeških zapiskov", Združenje za napredek umetne inteligence, https://www.aaai.org/ojs/index.php/aimagazine/article/view/2564
Trevor Cohn, Lucia Specia, 2013, "Modeliranje pristranskosti anotatorjev z večopravilnimi Gaussovimi procesi: aplikacija za oceno kakovosti strojnega prevajanja", Zbornik 51. letnega srečanja Združenja za računalniško jezikoslovje (1. zvezek: Dolgi referati) https://www.aclweb.org/anthology/P13-1004
Anca Dumitrache, Lora Aroyo, Chris Welty, 2019, "Telo z dvosmislenim korpusom za množično oblikovanje z dvoumnostjo", https://arxiv.org/pdf/1904.06101.pdf
Mor Geva, Yoav Goldberg, Jonathan Berant, 2019, “Ali modeliramo nalogo ali opomnik? Preiskava pristranskosti opomb pri razumevanju naborov podatkov v naravnem jeziku ", Zbornik prispevkov konference o empiričnih metodah v obdelavi naravnih jezikov 2019 in 9. mednarodne skupne konference o obdelavi naravnega jezika, https://www.aclweb.org/anthology/D19-1107.pdf
Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman, Noah A. Smith, 2018, „Arnofakti pripisov v podatkih iz naravnega jezika“, Zbornik NAACL-HLT 2018, https://www.aclweb.org/anthology/N18-2017.pdf
Emily K. Jamison in Iryna Gurevych, 2015, „Hrup ali dodatne informacije? Uporaba dogovora o postavki za množične vire za naloge v naravnem jeziku. ", Zbornik konferenc o empiričnih metodah v obdelavi naravnih jezikov leta 2015, https://www.aclweb.org/anthology/D15-1035.pdf
Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew E. Peters, Ashish Sabharwal, Yejin Choi, 2020, "Protislovni filtri pristranskosti nabora podatkov", https://arxiv.org/pdf/2002.04108.pdf
Rabeeh Karimi Mahabadi, James Henderson, 2019, "Preproste, a učinkovite tehnike za zmanjšanje pristranskosti nabora podatkov", https://arxiv.org/pdf/1909.06321.pdf
R. Thomas McCoy, Ellie Pavlick in Tal Linzen, 2019, "Prav zaradi napačnih razlogov: Diagnosticiranje skladenjske hevristike v naravnem jezikovnem sklepanju", Zbornik Združenja za računalniško jezikoslovje (ACL),
https://arxiv.org/pdf/1902.01007.pdf
Rion Snow, Brendan O'Connor, Daniel Jurafsky, Andrew Ng, 2008, »Poceni in hitro - a je dobro? Ocenjevanje nestrokovnih pripisov za naloge v naravnem jeziku ", Zbornik konferenc o empiričnih metodah v obdelavi naravnih jezikov leta 2008, https://www.aclweb.org/anthology/D08-1027.pdf
Zihan Wang, Jingbo Shang, Liyuan Liu, Lihao Lu, Jiacheng Liu, Jiawei Han, 2019, “CrossWeigh: Training imenovan Entity Tagger from Imperfect Annotations”, Zbornik konferenc o empiričnih metodah v obdelavi naravnih jezikov 2019 in 9. mednarodne skupne konference o obdelavi naravnega jezika, https://www.aclweb.org/anthology/D19-1519.pdf

Vir: https://unbabel.com/blog/translation-ambiguity/

Časovni žig: Februar 28, 2020

Časovni žig: Oktober 24, 2018

Prevajalske prepirke: kaj se zgodi, če se annotatorji ne strinjajo?

Ponovno objavil Platon

Primeri nadzorovanega učenja

Merilni (ne) dogovor

Se strinjate, da se ne strinjate?

Sprejetje kaosa

Viri

Več od Razveljavi

Osnovni stavki za komuniciranje z nemškimi kupci

Šest ovir za učinkovito večjezično podporo (in kako jih premagati)

Najbolje rečeš, če ne rečeš ničesar

Najbolj znana in kontroverzna božična pesem

"Ne samo še ena čudna konferenca" - zakaj gremo na Zendesk Relate

#Salvadorable: Razumeti prvega portugalskega zmagovalca Evrovizije v 17 jezikih

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun