حل الترجمة الآلية ، خطوة بخطوة

عقدة المصدر: 795289

عندما كنت طفلاً ، اعتقدت أنني سأكبر لأصبح عالم رياضيات أو فيزيائيًا. لقد فهمت في وقت مبكر جدًا أنني أريد أن أدرس وأجري بحثًا ، أو حتى أصبح مدرسًا ، في أحد تلك المجالات. لم أكن أعرف ما هو الذكاء الاصطناعي. في الواقع ، خلال السنوات الأولى كطالب جامعي في علوم الكمبيوتر ، شعرت في كثير من الأحيان أنه يجب علي التحول إلى الرياضيات. أنا سعيد لأنني لم أفعل.

لكن جدتي لا تفهم حقًا ما هي وظيفتي ، لأنه للقيام بذلك ، يجب عليك استخدام الإنترنت. إذا لم تفعل ذلك ، وأخبرك أنه في Unbabel ، نحن نجعل أجهزة الكمبيوتر تقوم بأفعال بشرية تلقائيًا ، فمن المحتمل أن تجلس هناك وتحدق بي بهدوء.

بطريقة ما ، لم ينتهي بي الأمر في مكان مختلف تمامًا عما كنت أتخيله عندما كنت طفلاً. أعني ، بدأ حقل الترجمة الآلية بالكامل مع Warren Weaver بعد الحرب العالمية الثانية ، بعد أن قام عالم الرياضيات Allen Turing بتفكيك شفرة Enigma.

الفكرة هي أنه يمكننا التعامل مع اللغة كرمز. الفرق هو أن الرموز رسمية لا لبس فيها ؛ وما يجعل الترجمة صعبة للغاية هو الغموض بالتحديد.

حالة الترجمة الآلية

بعض الناس لديهم معرفة جيدة بما يفعله Unbabel: نحن نترجم نصًا بلغة معينة إلى لغة مختلفة. لكن الآخرين لا يعرفون حتى ما هو الذكاء الاصطناعي. قد يعتقد البعض أن كل ما يفعله الذكاء الاصطناعي هو "أشياء آلية" ، لكن هذا ليس كل شيء. ما يفعله الذكاء الاصطناعي هو محاكاة السلوك البشري ، بطريقة ما ، وفي بعض الأشياء يكون أفضل من البشر في ذلك.

لنبدأ بالأساسيات: ماذا تفعل أنظمة التعلم الآلي؟ أنت تقدم لهم كائن المصدر ، في هذه الحالة جملة ، وتطلب منهم التنبؤ بشيء ما ، جملة مستهدفة.

تكمن صعوبة الترجمة في عدم وجود معيار ذهبي. المعيار الذهبي يرمز إلى الحقيقة الفعلية. إذا كنت تحاول الحصول على آلة لاكتشاف الصور عن طريق السؤال "هل هذه قطة أم كلب؟" ، فهناك حقيقة ذهبية لأن صورة معينة ستكون واحدة أو أخرى. هذا غير موجود في الترجمة الآلية ، لأنه يمكن أن يكون لديك 20 ترجمة مختلفة جيدة بنفس القدر. إنها مشكلة أصعب بكثير في البداية. ما هي الترجمة الجيدة وما هي غير ذلك؟ هناك أيضًا حقيقة أن اللغة غامضة للغاية. يمكن للكلمات أن تعني أشياء مختلفة جدًا في سياقات مختلفة. وبالتالي فإن مشكلة الترجمة لم يتم حلها إلى حد كبير.

إذا نظرت بشكل أعمق في الترجمة الآلية ، سترى أنها ليست أفضل بكثير مما كانت عليه قبل بضع سنوات ، على الرغم مما يعتقده معظم الناس. بدت المخرجات السابقة لأنظمة الترجمة الآلية الإحصائية غير طبيعية أو آلية للغاية. قد تبدو اليوم أكثر طلاقة ، لكنها أقل ملاءمة من سابقاتها ، والتي عادةً ما تحتوي على المحتوى الصحيح على الرغم من أنه قد يكون من الصعب فهمه. قد تفشل الترجمات الآلية في الوقت الحاضر بشكل كارثي من حيث المحتوى ، لكنها لا تزال تبدو بطلاقة. بشكل عام إنه نظام أفضل.

لقد وصلت الترجمة الآلية إلى نقطة حيث يمكن للمرء على الأقل فهم جوهر النص. لقد أصبحت أكثر طلاقة ، على الرغم من أن النماذج لا تزال أساسية للغاية ولديها القليل من المعرفة باللغة. ما زالوا يعملون في الغالب على نوع من الجملة لكل مستوى جملة. لذلك من الواضح أن أي شخص يعتقد أن الترجمة الآلية قد تم حلها لم يستخدمها.

بالنسبة إلى Unbabel كشركة تقوم ببيعها حلول دعم متعددة اللغات للشركات الكبرى التي تتفاعل مع آلاف أو ملايين العملاء كل يوم ، فإنها تطرح مشكلة لأنه في معظم الأحيان ، عندما تذكر الترجمة الآلية ، يفكر الناس على الفور في الأخطاء التي يرتكبها. لا يمكنك اختلاق القصص فقط لتبدو وكأن الترجمة الآلية مثالية ، فهي مكانها في هذه المرحلة. لا يزال يتطلب من الإنسان في الحلقة أن يمنحها ذلك الجزء الإضافي من الجودة.

في الدردشة ، على سبيل المثال ، هناك شخص يتحدث بالفعل إلى الشخص الآخر ، مما يعني أنه يمكنك التعافي من الأخطاء بشكل أسرع. إذا قلت شيئًا لا معنى له ، فقد يقول الشخص الذي على الطرف الآخر "ماذا؟ لم أفهم ذلك "، وبعد ذلك ستحاول الترجمة مرة أخرى.

هذا يعني في الأساس أنك تقوم بتقدير الجودة الخاص بك ، لأنه في نهاية اليوم ، ما تريده هو حوار يعمل.

أهمية تقدير الجودة

تقدير الجودة - ما نستخدمه لتقييم جودة نظام الترجمة دون الوصول إلى ترجمات مرجعية أو تدخل بشري - هو سر الترجمة الآلية. في الواقع ، ادعى بعض الناس أنه يمكن أن يحل مشكلة "ما هي الترجمة الصحيحة؟" ، لأن لدينا الآن نظامًا يقيم مدى جودة الترجمة أو سوءها. لا يعني ذلك بالضرورة أن الترجمة ال واحد صحيح ، لكنه a الترجمة الصحيحة.

لكن تقدير الجودة يعاني من نفس الصعوبات التي تواجه الترجمة الآلية ، مما يعني أنه يمكنك توقع نفس المستوى من الدقة منها. أكبر مشكلة في الترجمة الآلية هي أنها ترتكب أخطاء دائمًا لأن اللغة يصعب فهمها. إما بسبب النماذج البسيطة للغاية بسبب قوة الحساب أو بسبب حقيقة أن أي نظام للتعلم الآلي سوف يرتكب أخطاء ، فإن أفضل الأسهم هي حوالي 90٪. قد يبدو هذا كثيرًا ، ولكن إذا فكرت في الأمر ، فهذا يعني أن واحدة من كل عشر جمل ستكون خاطئة.

يحاول تقدير الجودة التنبؤ بهذه الجمل الخاطئة ، أو على الأقل محاولة الحكم على ما إذا كان الخطأ حرجًا أم لا. سيسمح لنا أساسًا باستخدام الترجمة الآلية بدرجة أعلى من الثقة.

في Unbabel ، كرسنا الكثير من وقتنا لحل مشكلة تقدير الجودة. فريق الذكاء الاصطناعي الأساسي هو الشخص الذي ركز عليه في الغالب ، واكتشاف نماذج جديدة. ثم هناك الكثير من العمل في مجال الذكاء الاصطناعي والإنتاج التطبيقي ، للإجابة على أسئلة مثل:

  • كيف يعمل هذا على خط الأنابيب؟
  • هل هي قابلة للتطوير؟ هل نحن بحاجة لتغيير الهدف؟
  • كيف تعمل مع بياناتنا العملية؟
  • كيف يتم تكييف هذه النماذج؟

نظرًا لأن الذكاء الاصطناعي الأساسي يعمل في الغالب على بيانات المجال العامة ، يتعين على الذكاء الاصطناعي المطبق التقاطه والتأكد من أنه يعمل على واقع الدردشة أو التذاكر ، إذا كان يعمل بنغمات متباينة أم لا. هناك البحث ، ثم هناك تعمل نتائجه في المنتج.

نحن نؤمن إيمانا راسخا بأنظمة تقدير الجودة لدينا. نحن نؤمن أيضًا بالبحث التعاوني والقابل للتكرار ، ولهذا السبب قبل بضعة أشهر قمنا ببناء Open Kiwi - إطار عمل مفتوح المصدر يقوم بتنفيذ أفضل أنظمة تقدير الجودة، مما يجعل من السهل حقًا تجربة هذه النماذج وتكرارها في نفس الإطار ، بالإضافة إلى تطوير نماذج جديدة.

ربما كنا من أوائل الشركات التي بدأت في استخدام تقدير الجودة في الإنتاج وقمنا بإجراء بحث حول هذا الموضوع لفترة طويلة جدًا. هذا يعني أن لدينا نماذج أفضل وفهمًا أفضل للمشكلة من الشركات أو الباحثين الآخرين الذين يعملون على تقدير الجودة.

والجوائز تذهب إلى ...

هذا هو السبب في أنني كنت سعيدًا جدًا استعادنا لقب أفضل نظام عالمي لتقدير جودة الترجمة الآلية في المؤتمر العالمي للترجمة الآلية في وقت سابق من هذا العام. ليس ذلك فحسب ، بل لقد فزنا أيضًا بالمنافسة على التحرير التلقائي للنشر.

كان مهمًا جدًا بالنسبة لنا لسببين. الأول هو التأثير الذي يحدثه تقدير الجودة على خط أنابيب الإنتاج لدينا ، وعائد الاستثمار الذي نحصل عليه منه. ولهذا ، لا يهم حقًا إذا فزنا بهذه المنافسة أو في أي مسابقة أخرى.

ولكن من ناحية أخرى ، فإن الفوز بهذه الجوائز المرموقة يعني الاعتراف بعلامة Unbabel التجارية ، وهو أمر ضروري لجذب انتباه العملاء والمستثمرين. إنه أيضًا تقدير مهم لفريق الذكاء الاصطناعي ، الذي يصعب أحيانًا فهم عمله ومنحه الفضل. الذكاء الاصطناعي هو مخاطرة عالية ومكافأة عالية. يمكنك العمل لمدة عام ولا تصل إلى أي مكان. على سبيل المثال ، كل العمل الذي قمنا به في تقدير الجودة البشرية لم ينجح ، لأننا لم نمتلك الأدوات المناسبة لذلك.

وبالتالي فإن هذه الجوائز جيدة للاعتراف بها ، ولزيادة الوعي باسم Unbabel في الأعمال التجارية والأوساط الأكاديمية ، لكنها جيدة أيضًا للروح المعنوية. Unbabel هي شركة ذكاء اصطناعي بحت. نحن لا نستخدم الذكاء الاصطناعي فقط ، نحن في الواقع نبني ونكتشف ذكاءً اصطناعيًا غير موجود بعد. وأن يتم الاعتراف به علنًا لأن هذا يعني العالم بالنسبة لي. أعتقد أن ذاتي التي تبلغ من العمر 9 سنوات والمتخصصة في الرياضيات ستكون فخورة.

المصدر: https://unbabel.com/blog/best-machine-translation-quality-estimation/

الطابع الزمني:

اكثر من أونبابل