از بچگی فکر می کردم بزرگ می شوم تا یک ریاضی دان یا فیزیکدان شوم. من خیلی زود فهمیدم که می خواهم در یکی از آن رشته ها درس بخوانم و تحقیق کنم یا حتی معلم شوم. من نمی دانستم هوش مصنوعی چیست. در واقع، در سال های اول به عنوان دانشجوی کارشناسی در رشته علوم کامپیوتر، بارها احساس می کردم که باید به ریاضیات روی بیاورم. خوشحالم که این کار را نکردم.
مادربزرگ من واقعاً نمیداند شغل من چیست، زیرا برای انجام این کار، باید از اینترنت استفاده کنید. اگر این کار را نکنید، و من به شما میگویم که در Unbabel، ما رایانهها را به طور خودکار اعمال انسانی انجام میدهیم، احتمالاً همان جا مینشینید و بیپروا به من خیره میشوید.
به نوعی، من در نهایت در مکان بسیار متفاوتی با آنچه در کودکی تصور می کردم قرار نگرفتم. منظورم این است که کل این زمینه ترجمه ماشینی با وارن ویور پس از جنگ جهانی دوم شروع شد، پس از اینکه آلن تورینگ، ریاضیدان، کد انیگما را شکست.
ایده این است که ما می توانیم زبان را به عنوان یک رمز در نظر بگیریم. تفاوت این است که کدها رسمی و بدون ابهام هستند. و آنچه ترجمه را بسیار سخت می کند دقیقاً ابهام است.
وضعیت ترجمه ماشینی
برخی از مردم تا حدودی از کاری که Unbabel انجام می دهد، آگاهی دارند: ما متنی را به زبانی خاص به زبان دیگری ترجمه می کنیم. اما دیگران حتی نمی دانند که هوش مصنوعی چیست. برخی ممکن است فکر کنند تمام کارهایی که هوش مصنوعی انجام می دهد «چیزهای روباتی» است، اما اینطور نیست. کاری که هوش مصنوعی انجام می دهد به نوعی تقلید از رفتار انسان است. و در بعضی چیزها حتی بهتر از انسان است در آن.
بیایید با اصول اولیه شروع کنیم: سیستم های یادگیری ماشین چه کاری انجام می دهند؟ شما به آنها یک شی مبدا، در این مورد یک جمله، ارائه می دهید، و از آنها می خواهید چیزی را پیش بینی کنند، یک جمله هدف.
مشکل ترجمه این است که استاندارد طلایی وجود ندارد. استاندارد طلا مخفف حقیقت واقعی است. اگر میخواهید با پرسیدن «این یک گربه است یا یک سگ؟»، دستگاهی را برای تشخیص تصاویر بخواهید، یک حقیقت طلایی وجود دارد زیرا یک تصویر خاص یکی یا دیگری خواهد بود. در ترجمه ماشینی این وجود ندارد، زیرا شما می توانید 20 ترجمه مختلف داشته باشید که به همان اندازه خوب هستند. برای شروع مشکل بسیار سخت تری است. ترجمه خوب چیست و چه نیست؟ همچنین این واقعیت وجود دارد که زبان بسیار مبهم است. کلمات می توانند معانی بسیار متفاوتی در زمینه های مختلف داشته باشند. و بنابراین مشکل ترجمه تا حد زیادی حل نشده است.
اگر عمیقتر به ترجمه ماشینی نگاه کنید، میبینید که علیرغم آنچه اکثر مردم فکر میکنند، بهتر از چند سال پیش نیست. خروجی های قبلی سیستم های ترجمه ماشینی آماری بسیار غیر طبیعی یا روباتیک به نظر می رسید. امروزه ممکن است آنها روانتر به نظر برسند، اما نسبت به قبلیها کمتر مناسب هستند، که معمولاً محتوای مناسبی داشتند، حتی اگر درک آن سختتر باشد. امروزه ترجمههای ماشینی ممکن است از نظر محتوا به طرز فاجعهباری شکست بخورند، اما همچنان روان به نظر میرسند. در کل سیستم بهتری است.
ترجمه ماشینی به جایی رسیده است که حداقل می توان اصل متن را درک کرد. با وجود اینکه مدلها هنوز بسیار ابتدایی هستند و دانش کمی از زبان دارند، این در حال روانتر شدن است. آنها هنوز هم عمدتاً روی نوعی جمله در سطح جمله کار می کنند. بنابراین هر کسی که فکر می کند ترجمه ماشینی حل شده است، واضح است که از آن استفاده نکرده است.
برای Unbabel به عنوان یک شرکت، که در حال فروش آن است راه حل های پشتیبانی چند زبانه برای شرکتهای بزرگی که روزانه با هزاران یا میلیونها مشتری در تعامل هستند، مشکل ایجاد میکند، زیرا اکثر اوقات، وقتی به ترجمه ماشینی اشاره میکنید، مردم بلافاصله به اشتباهاتی که مرتکب می شود فکر می کنند. شما نمی توانید فقط داستان بسازید تا به نظر برسد ترجمه ماشینی عالی است، بلکه در این مرحله است. هنوز هم از یک انسان در حلقه میخواهد که به آن کیفیت بیشتری بدهد.
به عنوان مثال، در چت، شخصی وجود دارد که در واقع با طرف مقابل صحبت می کند، به این معنی که می توانید خیلی سریعتر از خطاها خلاص شوید. اگر چیزی بگویید که منطقی نیست، فرد طرف مقابل ممکن است بگوید «چی؟ من متوجه نشدم» و سپس ترجمه را دوباره امتحان خواهید کرد.
این اساساً به این معنی است که شما در حال برآورد کیفیت خود هستید، زیرا، در پایان روز، آنچه شما میخواهید گفتگوی مؤثر است.
اهمیت برآورد کیفیت
تخمین کیفیت - آنچه ما برای ارزیابی کیفیت سیستم ترجمه بدون دسترسی به ترجمه های مرجع یا مداخله انسانی استفاده می کنیم - راز ترجمه ماشینی است. در واقع، برخی از افراد ادعا کرده اند که می تواند مشکل "ترجمه صحیح کدام است؟" را حل کند، زیرا اکنون ما سیستمی داریم که میزان خوب یا بد بودن یک ترجمه را ارزیابی می کند. لزوماً به این معنا نیست که ترجمه است la درست است، اما این است a ترجمه صحیح
اما تخمین کیفیت از مشکلات مشابه ترجمه ماشینی رنج میبرد، به این معنی که میتوانید همان سطح دقت را از آن انتظار داشته باشید. بزرگترین مشکل ترجمه ماشینی این است که همیشه اشتباه می کند زیرا درک زبان بسیار سخت است. یا به دلیل مدل هایی که به دلیل قدرت محاسباتی بسیار ساده هستند یا به دلیل این واقعیت که هر سیستم یادگیری ماشینی اشتباه می کند، بهترین ارزش ها حدود 90 درصد است. این ممکن است زیاد به نظر برسد، اما اگر به آن فکر کنید، به این معنی است که از هر ده جمله یک جمله اشتباه است.
برآورد کیفیت تلاش برای پیشبینی آن جملات اشتباه، یا حداقل تلاش برای قضاوت در مورد مهم بودن یا نبودن یک خطا است. اساساً این امکان را به ما می دهد که از ترجمه ماشینی با درجه اطمینان بسیار بالاتری استفاده کنیم.
در Unbabel، ما زمان زیادی را به حل مشکل برآورد کیفیت اختصاص دادهایم.. تیم اصلی هوش مصنوعی کسانی هستند که بیشتر روی آن متمرکز شده اند و مدل های جدیدی را کشف می کنند. سپس کارهای زیادی از هوش مصنوعی کاربردی و تولید انجام شده است تا به سوالاتی مانند پاسخ دادن به آنها پاسخ دهیم:
- این چگونه روی خط لوله اجرا می شود؟
- آیا مقیاس پذیر است؟ آیا باید هدف را تغییر دهیم؟
- چگونه با داده های عملی ما کار می کند؟
- انطباق این مدل ها را چگونه انجام می دهید؟
از آنجایی که هوش مصنوعی اساسی بیشتر بر روی دادههای دامنه عمومی کار میکند، هوش مصنوعی کاربردی باید آن را انتخاب کند و مطمئن شود که روی واقعیت چت یا بلیط ما کار میکند، چه با صداهای متفاوت کار کند یا نه. تحقیقات وجود دارد، سپس یافته های آن روی محصول کار می کند.
ما به سیستم های تخمین کیفیت خود معتقدیم. ما همچنین به تحقیقات تکرارپذیر و مشارکتی اعتقاد داریم، به همین دلیل است که چند ماه پیش ما Open Kiwi را ساختیم - یک چارچوب منبع باز که بهترین سیستم های برآورد کیفیت را پیاده سازی می کند، آزمایش و تکرار با این مدل ها در چارچوب یکسان و همچنین توسعه مدل های جدید را واقعاً آسان می کند.
ما احتمالاً یکی از اولین شرکت هایی بودیم که شروع به استفاده از تخمین کیفیت در تولید کردیم و مدت زیادی است که در مورد این موضوع تحقیق می کنیم. این بدان معناست که ما نسبت به سایر شرکت ها یا محققانی که بر روی تخمین کیفیت کار می کنند، مدل های بهتر و درک بهتری از مشکل داریم.
و جوایز به…
به همین دلیل است که من بسیار خوشحالم عنوان بهترین سیستم برآورد کیفیت ترجمه ماشینی جهانی را در کنفرانس ترجمه ماشینی جهانی دوباره به دست آورد اوایل امسال نه تنها این، بلکه در مسابقه ویرایش خودکار پست نیز برنده شدیم.
به دو دلیل برای ما خیلی مهم بود. اولین مورد تأثیری است که برآورد کیفیت بر خط لوله تولید ما دارد، بازگشت سرمایه ای که از آن دریافت می کنیم. و برای آن، واقعاً مهم نیست که در این مسابقه یا هر مسابقه دیگری برنده شویم.
اما از سوی دیگر، کسب چنین جوایز معتبری به معنای شناخت برند Unbabel است که برای جلب توجه مشتریان و سرمایه گذاران ضروری است. همچنین این یک تشخیص مهم برای تیم هوش مصنوعی است، که گاهی اوقات درک کار و اعتبار دادن به آن سخت است. هوش مصنوعی ریسک بسیار بالایی دارد و پاداش بالایی دارد. شما می توانید یک سال کار کنید و به جایی نرسید. به عنوان مثال، تمام کارهایی که ما روی تخمین کیفیت انسانی خود انجام دادیم، جواب نداد، زیرا ابزار مناسبی برای آن نداشتیم.
و بنابراین این جوایز برای شناخت، افزایش آگاهی از نام Unbabel در تجارت و دانشگاه خوب هستند، اما برای روحیه نیز خوب هستند. Unbabel یک شرکت کاملاً هوش مصنوعی است. ما فقط از هوش مصنوعی استفاده نمی کنیم، بلکه در واقع هوش مصنوعی را می سازیم و کشف می کنیم که هنوز وجود ندارد. و به رسمیت شناخته شدن به این دلیل برای من به معنای جهان است. فکر می کنم خود ریاضی دان 9 ساله من افتخار می کند.
منبع: https://unbabel.com/blog/best-machine-translation-quality-estimation/
- دسترسی
- AI
- ابهام
- دور و بر
- هوش مصنوعی
- مبانی
- بهترین
- بزرگترین
- بیت
- بنا
- کسب و کار
- تغییر دادن
- رمز
- شرکت
- شرکت
- رقابت
- علم کامپیوتر
- کامپیوتر
- کنفرانس
- اعتماد به نفس
- محتوا
- اعتبار
- مشتریان
- داده ها
- روز
- DID
- در اوایل
- معما
- تجربه
- زمینه
- شرکت
- نام خانوادگی
- چارچوب
- جهانی
- طلا
- خوب
- شدن
- زیاد
- چگونه
- HTTPS
- انسان در حلقه است
- اندیشه
- تصویر
- تأثیر
- افزایش
- اطلاعات
- اینترنت
- سرمایه گذاری
- IT
- کار
- دانش
- زبان
- یادگیری
- سطح
- طولانی
- فراگیری ماشین
- ترجمه ماشین
- عمده
- ساخت
- ریاضیات
- ماه
- باز کن
- باز می شود
- دیگر
- دیگران
- مردم
- قدرت
- در حال حاضر
- محصول
- تولید
- کیفیت
- واقعیت
- دلایل
- بهبود یافتن
- تحقیق
- خطر
- دویدن
- علم
- حس
- ساده
- So
- حل
- شروع
- آغاز شده
- دولت
- داستان
- دانشجو
- مهاجرت تحصیلی
- پشتیبانی
- گزینه
- سیستم
- سیستم های
- سخنگو
- هدف
- معلم
- مبانی
- زمان
- ترجمه
- کیفیت ترجمه
- ترجمه
- درمان
- تورینگ
- آنبابل
- us
- جنگ
- وارن
- چه شده است
- WHO
- پیروزی
- کلمات
- مهاجرت کاری
- با این نسخهها کار
- جهان
- سال
- سال