Her seferinde bir adımda Makine Çevirisini Çözme

Kaynak Düğüm: 795289

Çocukken, büyüyüp matematikçi ya da fizikçi olacağımı düşündüm. Bu alanlardan birinde okumak ve araştırma yapmak, hatta öğretmen olmak istediğimi çok erken anladım. Yapay zekanın ne olduğunu bilmiyordum. Aslında, Bilgisayar Bilimleri lisans öğrencisi olduğum ilk yıllarda, çoğu zaman matematiğe geçmem gerektiğini hissettim. Yapmadığıma sevindim.

Büyükannem işimin ne olduğunu gerçekten anlamıyor çünkü bunu yapmak için interneti kullanmanız gerekiyor. Eğer yapmazsanız ve size şunu söyleyeyim, Unbabel'de bilgisayarlara otomatik olarak insan eylemleri yaptırıyoruz, muhtemelen orada oturup bana boş boş bakarsınız.

Bir bakıma, çocukken hayal ettiğimden çok farklı bir yere gitmedim. Demek istediğim, tüm bu makine çevirisi alanı, İkinci Dünya Savaşı'ndan sonra, matematikçi Allen Turing'in Enigma kodunu kırmasından sonra Warren Weaver ile başladı.

Fikir, dili bir kod olarak ele alabilmemizdir. Aradaki fark, kodların resmi ve net olmasıdır; ve çeviriyi bu kadar zor kılan tam olarak belirsizliktir.

Makine çevirisinin durumu

Bazı insanlar Unbabel'in ne yaptığına dair biraz bilgi sahibidir: belirli bir dildeki bir metni farklı bir dile çeviririz. Ancak diğerleri Yapay Zekanın ne olduğunu bile bilmiyor. Bazıları yapay zekanın yaptığı her şeyin “robot şeyler” olduğunu düşünebilir, ama bu o değil. Yapay zekanın yaptığı şey bir şekilde insan davranışını taklit etmektir. ve bazı şeylerde insanlardan bile daha iyi o anda.

Temel bilgilerle başlayalım: makine öğrenimi sistemleri ne işe yarar? Onlara bir kaynak nesne, bu durumda bir cümle sunuyorsunuz ve onlardan bir şey, bir hedef cümle tahmin etmelerini istiyorsunuz.

Çeviriyle ilgili zorluk, altın standart olmamasıdır. Altın standart, gerçek gerçeği temsil eder. "Bu bir kedi mi yoksa köpek mi?" Diye sorarak görüntüleri algılayacak bir makineye sahip olmaya çalışıyorsanız, altın bir gerçek var çünkü belirli bir görüntü biri veya diğeri olacaktır. Makine çevirisinde bu mevcut değildir, çünkü eşit derecede iyi 20 farklı çeviriye sahip olabilirsiniz. Başlamak çok daha zor bir problem. İyi çeviri nedir ve ne değildir? Bir de dilin oldukça belirsiz olduğu gerçeği var. Kelimeler, farklı bağlamlarda çok farklı anlamlara gelebilir. Ve bu nedenle, çeviri ile ilgili sorun büyük ölçüde çözülmemiş durumda.

Makine çevirisine daha derinlemesine bakarsanız, çoğu insanın düşündüğüne rağmen, birkaç yıl öncesine göre çok daha iyi olmadığını göreceksiniz. İstatistiksel makine çeviri sistemlerinin önceki çıktıları çok doğal değildi veya robotik görünüyordu. Bugün kulağa daha akıcı gelebilir, ancak anlaşılması daha zor olsa da normalde doğru içeriğe sahip olan öncekilerden daha az yeterli. Günümüzde makine çevirileri içerik açısından feci şekilde başarısız olabilir, ancak yine de akıcı geliyor. Genel olarak daha iyi bir sistem.

Makine çevirisi, kişinin en azından metnin özünü anlayabileceği bir noktaya geldi. Modellerin hala çok temel olmasına ve dil bilgisi az olmasına rağmen, daha akıcı hale geliyor. Hala çoğunlukla cümle başına bir tür cümle düzeyinde çalışıyorlar. Yani makine çevirisinin çözüldüğünü düşünen hiç kimse onu kullanmamış.

Satan bir şirket olarak Unbabel için çok dilli destek çözümleri her gün binlerce veya milyonlarca müşteriyle etkileşimde bulunan büyük şirketler için sorun teşkil ediyor çünkü çoğu zaman makine çevirisinden bahsettiğinizde, insanlar yaptığı hataları hemen düşünür. Makine çevirisi mükemmelmiş gibi görünmesi için hikayeler uyduramazsınız, bu noktada olduğu yer burasıdır. Hâlâ döngüdeki bir insanın ona ekstra kalite vermesini istiyor.

Örneğin sohbette, aslında diğer kişiyle konuşan bir kişi vardır, bu da hatalardan çok daha hızlı kurtulabileceğiniz anlamına gelir. Mantıklı olmayan bir şey söylerseniz, karşı taraftaki kişi “ne? Anlayamadım ”, ardından çeviriyi yeniden deneyeceksiniz.

Bu temelde kendi kalite tahmininiz olduğu anlamına gelir, çünkü günün sonunda istediğiniz şey işe yarayan bir diyalogdur.

Kalite tahmininin önemi

Referans çevirilere veya insan müdahalesine erişim olmadan bir çeviri sisteminin kalitesini değerlendirmek için kullandığımız kalite tahmini, makine çevirisinin sırrıdır. Aslında, bazıları bunun "doğru çeviri hangisi?" Sorununu çözebileceğini iddia ettiler, çünkü artık bir çevirinin ne kadar iyi veya kötü olduğunu değerlendiren bir sistemimiz var. Bir çeviri olduğu anlamına gelmez the doğru olan ama bu a doğru çeviri.

Ancak kalite tahmini, makine çevirisi ile aynı zorluklardan muzdariptir, bu da ondan aynı doğruluk düzeyini bekleyebileceğiniz anlamına gelir. Makine çevirisiyle ilgili en büyük sorun, her zaman hata yapmasıdır çünkü dilin anlaşılması çok zordur. Ya hesaplama gücü nedeniyle çok basit olan modeller ya da herhangi bir makine öğrenimi sisteminin hata yapacağı gerçeği nedeniyle, en iyi hisse senetleri yüzde 90 civarında. Bu çok gibi görünebilir, ancak düşünürseniz, bu her on cümleden birinin yanlış olacağı anlamına gelir.

Kalite tahmini, bu yanlış cümleleri tahmin etmeye veya en azından bir hatanın kritik olup olmadığına karar vermeye çalışmaktır. Temelde makine çevirisini çok daha yüksek bir güvenle kullanmamıza izin verecek.

Unbabel olarak, zamanımızın çoğunu kalite tahmin problemini çözmeye adadık. Temel yapay zeka ekibi, yeni modeller keşfederek çoğunlukla ona odaklanan kişidir. Ardından, uygulamalı yapay zeka ve üretimden, aşağıdaki gibi soruları yanıtlamak için çok fazla çalışma var:

  • Bu, boru hattında nasıl çalışır?
  • Ölçeklenebilir mi? Hedefi değiştirmemiz gerekiyor mu?
  • Pratik verilerimizle nasıl çalışır?
  • Bu modellerin adaptasyonunu nasıl yapıyorsunuz?

Temel yapay zeka çoğunlukla genel alan verileri üzerinde çalıştığı için, uygulamalı yapay zekanın onu alması ve farklılaştırılmış tonlarla çalışıp çalışmadığı sohbet veya bilet gerçekliğimizde çalıştığından emin olması gerekir. Araştırma var, sonra bulguları ürün üzerinde çalışıyor.

Kalite tahmin sistemlerimize sıkı sıkıya inanıyoruz. Ayrıca tekrarlanabilir ve işbirliğine dayalı araştırmalara inanıyoruz, bu yüzden birkaç ay önce En iyi Kalite Tahmin sistemlerini uygulayan açık kaynaklı bir çerçeve olan Open Kiwi'yi oluşturduk, bu modellerle aynı çerçeve altında deneme ve yineleme yapmayı ve yeni modeller geliştirmeyi gerçekten kolaylaştırıyor.

Muhtemelen üretimde kalite tahminini kullanmaya başlayan ilk şirketlerden biriydik ve bu konuda çok uzun zamandır araştırma yapıyoruz. Bu, kalite tahmini üzerinde çalışan diğer şirketlerden veya araştırmacılardan daha iyi modellere ve sorunu daha iyi anladığımız anlamına gelir.

Ve ödüller…

Bu yüzden çok mutluyduk biz Dünya Makine Çevirisi Konferansı'nda en iyi küresel Makine Çevirisi Kalite Tahmin sistemi unvanımızı yeniden kazandık bu yılın başlarında. Sadece bu değil, aynı zamanda otomatik yazı düzenleme yarışmasını da kazandık.

Bizim için iki nedenle çok önemliydi. Birincisi, kalite tahmininin üretim hattımız üzerindeki etkisi, ondan aldığımız yatırımın geri dönüşü. Ve bunun için, bunu veya başka bir rekabeti kazanıp kazanmamamız gerçekten önemli değil.

Ancak öte yandan, böylesine prestijli ödülleri kazanmak, müşterilerin ve yatırımcıların dikkatini çekmek için gerekli olan Unbabel markasının tanınması anlamına geliyor. Aynı zamanda, çalışmaları bazen anlaşılması ve takdir edilmesi zor olan AI ekibi için de önemli bir takdir. AI çok yüksek risk, yüksek ödül. Bir yıl çalışıp bir yere varamazsın. Örneğin, insan kalitesi tahminimiz üzerine yaptığımız tüm çalışmalar işe yaramadı çünkü bunun için doğru araçlara sahip değildik.

Ve bu yüzden bu ödüller, iş dünyasında ve akademide Unbabel isminin farkındalığını artırmak için tanınma açısından iyidir, ancak moral için de iyidir. Unbabel tamamen yapay zeka şirketidir. Sadece yapay zeka kullanmıyoruz, aslında henüz var olmayan bir yapay zekayı inşa ediyor ve keşfediyoruz. Ve bunun için alenen kabul edilmek benim için dünya anlamına geliyor. Bence 9 yaşındaki matematikçi özenti benim gurur duyardı.

Kaynak: https://unbabel.com/blog/best-machine-translation-quality-estimation/

Zaman Damgası:

Den fazla Etiketi kaldır