मशीन अनुवाद का समाधान, एक समय में एक कदम

स्रोत नोड: 795289

एक बच्चे के रूप में, मैंने सोचा था कि मैं बड़ा होकर गणितज्ञ या भौतिक विज्ञानी बनूँगा। मुझे बहुत पहले ही समझ आ गया था कि मैं उनमें से किसी एक क्षेत्र में अध्ययन करना और शोध करना चाहता हूँ, या यहाँ तक कि एक शिक्षक भी बनना चाहता हूँ। मुझे नहीं पता था कि AI क्या होता है. वास्तव में, कंप्यूटर विज्ञान में स्नातक छात्र के रूप में पहले वर्षों के दौरान, कई बार मुझे लगा कि मुझे गणित में स्विच करना चाहिए। मुझे खुशी है कि मैंने ऐसा नहीं किया।

हालाँकि, मेरी दादी वास्तव में नहीं समझती कि मेरा काम क्या है, क्योंकि ऐसा करने के लिए, आपको इंटरनेट का उपयोग करना होगा। यदि आप ऐसा नहीं करते हैं, और मैं आपको बताता हूं कि, अनबैबेल में, हम कंप्यूटरों को मानवीय क्रियाएं स्वचालित रूप से करने के लिए तैयार कर रहे हैं, तो आप शायद वहां बैठे रहेंगे और मुझे घूरते रहेंगे।

एक तरह से, मैं एक बच्चे के रूप में जो कल्पना की थी, उससे बहुत अलग जगह पर नहीं पहुँच पाया। मेरा मतलब है, यह पूरा मशीनी अनुवाद क्षेत्र द्वितीय विश्व युद्ध के बाद वॉरेन वीवर के साथ शुरू हुआ, जब एक गणितज्ञ एलन ट्यूरिंग ने एनिग्मा कोड को क्रैक किया था।

विचार यह है कि हम भाषा को एक कोड के रूप में मान सकते हैं। अंतर यह है कि कोड औपचारिक, स्पष्ट होते हैं; और जो चीज़ अनुवाद को इतना कठिन बनाती है वह निश्चित रूप से अस्पष्टता है।

मशीनी अनुवाद की स्थिति

कुछ लोगों को इस बात का ज्ञान है कि अनबैबेल क्या करता है: हम एक विशिष्ट भाषा के पाठ का एक अलग भाषा में अनुवाद करते हैं। लेकिन दूसरों को यह भी नहीं पता कि आर्टिफिशियल इंटेलिजेंस क्या है। कुछ लोग सोच सकते हैं कि एआई जो कुछ भी करता है वह "रोबोट चीजें" है, लेकिन ऐसा नहीं है। एआई जो कर रहा है वह किसी न किसी तरह से मानव व्यवहार की नकल कर रहा है। और कुछ चीजों में यह इंसानों से भी बेहतर है इस पर।

आइए बुनियादी बातों से शुरू करें: मशीन लर्निंग सिस्टम क्या करते हैं? आप उन्हें एक स्रोत वस्तु, इस मामले में एक वाक्य, के साथ प्रस्तुत करते हैं, और आप उनसे किसी चीज़ की भविष्यवाणी करने के लिए कहते हैं, एक लक्ष्य वाक्य।

अनुवाद में कठिनाई यह है कि इसका कोई स्वर्ण मानक नहीं है। स्वर्ण मानक वास्तविक सत्य का प्रतीक है। यदि आप "क्या यह बिल्ली है या कुत्ता?" पूछकर छवियों का पता लगाने के लिए एक मशीन प्राप्त करने का प्रयास कर रहे हैं, तो यह एक स्पष्ट सत्य है क्योंकि एक विशिष्ट छवि एक या दूसरी होगी। मशीनी अनुवाद में यह मौजूद नहीं है, क्योंकि आपके पास 20 अलग-अलग अनुवाद हो सकते हैं जो समान रूप से अच्छे हैं। इसे शुरू करना बहुत कठिन समस्या है। अच्छा अनुवाद क्या है और क्या नहीं? यह भी तथ्य है कि भाषा अत्यधिक अस्पष्ट है। अलग-अलग संदर्भों में शब्दों का मतलब बहुत अलग हो सकता है। और इसलिए अनुवाद की समस्या काफी हद तक अनसुलझी है।

यदि आप मशीनी अनुवाद में गहराई से देखेंगे, तो आप देखेंगे कि यह कुछ साल पहले की तुलना में उतना बेहतर नहीं है, इसके बावजूद कि अधिकांश लोग क्या सोचते हैं। सांख्यिकीय मशीनी अनुवाद प्रणालियों के पिछले आउटपुट बहुत अप्राकृतिक या रोबोटिक लगते थे। आज वे अधिक धाराप्रवाह लग सकते हैं, लेकिन वे पिछले वाले की तुलना में कम पर्याप्त हैं, जिनमें आम तौर पर सही सामग्री होती है, भले ही इसे समझना कठिन हो सकता है। आजकल मशीनी अनुवाद सामग्री के मामले में बुरी तरह विफल हो सकते हैं, लेकिन फिर भी धाराप्रवाह लगते हैं। कुल मिलाकर यह एक बेहतर व्यवस्था है.

मशीनी अनुवाद उस बिंदु पर आ गया है जहां कोई कम से कम पाठ का सार समझ सकता है। मॉडल अभी भी बहुत बुनियादी होने और भाषा का कम ज्ञान होने के बावजूद, यह अधिक धाराप्रवाह होता जा रहा है। वे अभी भी अधिकांशतः प्रति वाक्य स्तर पर एक प्रकार के वाक्य पर काम कर रहे हैं। इसलिए जो कोई भी सोचता है कि मशीनी अनुवाद हल हो गया है, उसने स्पष्ट रूप से इसका उपयोग नहीं किया है।

एक कंपनी के रूप में अनबैबेल के लिए, इसे कौन बेच रहा है बहुभाषी समर्थन समाधान बड़ी कंपनियों के लिए जो प्रतिदिन हजारों या लाखों ग्राहकों के साथ बातचीत करती हैं, यह एक समस्या पैदा करती है क्योंकि अधिकांश समय, जब आप मशीनी अनुवाद का उल्लेख करते हैं, लोग तुरंत इसके द्वारा की गई गलतियों के बारे में सोचते हैं. आप ऐसा दिखाने के लिए केवल कहानियां नहीं बना सकते कि मशीनी अनुवाद एकदम सही है, इस बिंदु पर यह यहीं है। इसे अतिरिक्त गुणवत्ता प्रदान करने के लिए अभी भी एक मानव की आवश्यकता है।

उदाहरण के लिए, चैट में एक व्यक्ति होता है जो वास्तव में दूसरे व्यक्ति से बात कर रहा होता है, जिसका अर्थ है कि आप त्रुटियों से बहुत तेजी से उबर सकते हैं। यदि आप कुछ ऐसा कहते हैं जिसका कोई मतलब नहीं है, तो दूसरी ओर से व्यक्ति कह सकता है, "क्या?" मुझे वह समझ नहीं आया", और फिर आप अनुवाद का पुनः प्रयास करेंगे।

इसका मूल रूप से मतलब है कि आप अपनी गुणवत्ता का आकलन स्वयं कर रहे हैं, क्योंकि, दिन के अंत में, आप जो चाहते हैं वह एक संवाद है जो काम करता है।

गुणवत्ता आकलन का महत्व

गुणवत्ता का आकलन - संदर्भ अनुवाद या मानवीय हस्तक्षेप तक पहुंच के बिना हम अनुवाद प्रणाली की गुणवत्ता का मूल्यांकन करने के लिए क्या उपयोग करते हैं - मशीनी अनुवाद का रहस्य है। वास्तव में, कुछ लोगों ने दावा किया है कि यह "सही अनुवाद कौन सा है?" की समस्या का समाधान कर सकता है, क्योंकि अब हमारे पास एक प्रणाली है जो यह आकलन करती है कि अनुवाद कितना अच्छा या बुरा है। इसका मतलब जरूरी नहीं कि अनुवाद ही हो la एक सही है, लेकिन यह है a सही अनुवाद.

लेकिन गुणवत्ता का आकलन मशीनी अनुवाद के समान ही कठिनाइयों से ग्रस्त है, जिसका अर्थ है कि आप इससे समान स्तर की सटीकता की उम्मीद कर सकते हैं। मशीनी अनुवाद के साथ सबसे बड़ी समस्या यह है कि इसमें हमेशा गलतियाँ होती हैं क्योंकि भाषा को समझना बहुत कठिन होता है। या तो उन मॉडलों के कारण जो गणना शक्ति के कारण बहुत सरल हैं या इस तथ्य के कारण कि कोई भी मशीन लर्निंग सिस्टम गलतियाँ करेगा, सर्वोत्तम इक्विटी लगभग 90 प्रतिशत पर हैं। यह बहुत अधिक प्रतीत हो सकता है, लेकिन यदि आप इसके बारे में सोचते हैं, तो इसका मतलब है कि हर दस वाक्यों में से एक गलत होगा।

गुणवत्ता आकलन उन गलत वाक्यों की भविष्यवाणी करने की कोशिश कर रहा है, या कम से कम यह आंकने की कोशिश कर रहा है कि कोई त्रुटि महत्वपूर्ण है या नहीं। यह मूल रूप से हमें बहुत अधिक आत्मविश्वास के साथ मशीनी अनुवाद का उपयोग करने की अनुमति देगा।

अनबैबेल में, हम गुणवत्ता आकलन समस्या को हल करने के लिए अपना बहुत सारा समय समर्पित कर रहे हैं. मौलिक एआई टीम वह है जो नए मॉडलों की खोज करते हुए अधिकतर इसी पर केंद्रित रही है। फिर निम्नलिखित जैसे प्रश्नों के उत्तर देने के लिए अनुप्रयुक्त एआई और उत्पादन की ओर से बहुत काम किया गया है:

  • यह पाइपलाइन पर कैसे चलता है?
  • क्या यह स्केलेबल है? क्या हमें लक्ष्य बदलने की जरूरत है?
  • यह हमारे व्यावहारिक डेटा के साथ कैसे काम करता है?
  • आप इन मॉडलों का अनुकूलन कैसे करते हैं?

चूंकि मौलिक एआई ज्यादातर सामान्य डोमेन डेटा पर काम करता है, इसलिए लागू एआई को इसे चुनना होगा और यह सुनिश्चित करना होगा कि यह चैट या टिकटों की हमारी वास्तविकता पर काम करता है, भले ही यह अलग-अलग टोन के साथ काम करता हो या नहीं। वहाँ अनुसंधान है, फिर उत्पाद में उसके निष्कर्षों पर काम किया जा रहा है।

हम अपनी गुणवत्ता आकलन प्रणालियों में दृढ़ विश्वास रखते हैं। हम प्रतिलिपि प्रस्तुत करने योग्य और सहयोगात्मक अनुसंधान में भी विश्वास करते हैं, यही कारण है कि कुछ महीने पहले हमने ओपन कीवी बनाया - एक ओपन-सोर्स फ्रेमवर्क जो सर्वोत्तम गुणवत्ता आकलन प्रणाली लागू करता है, जिससे एक ही ढांचे के तहत इन मॉडलों के साथ प्रयोग करना और पुनरावृत्त करना वास्तव में आसान हो गया है, साथ ही नए मॉडल विकसित करना भी आसान हो गया है।

हम संभवतः पहली कंपनियों में से एक थे जिन्होंने उत्पादन में गुणवत्ता आकलन का उपयोग करना शुरू किया था और हम इस विषय पर बहुत लंबे समय से शोध कर रहे हैं। इसका मतलब यह है कि गुणवत्ता आकलन पर काम करने वाली अन्य कंपनियों या शोधकर्ताओं की तुलना में हमारे पास बेहतर मॉडल और समस्या की बेहतर समझ है।

और पुरस्कार जाते हैं...

यही कारण है कि हम बहुत खुश थे विश्व मशीनी अनुवाद सम्मेलन में सर्वश्रेष्ठ वैश्विक मशीनी अनुवाद गुणवत्ता आकलन प्रणाली का खिताब फिर से हासिल कर लिया इस साल के पहले। इतना ही नहीं, हमने स्वचालित पोस्ट संपादन प्रतियोगिता भी जीती।

यह हमारे लिए दो कारणों से बहुत महत्वपूर्ण था। पहला यह है कि गुणवत्ता आकलन का हमारी उत्पादन पाइपलाइन पर क्या प्रभाव पड़ रहा है, इससे हमें जो निवेश पर रिटर्न मिल रहा है, वह प्रभावित हो रहा है। और उसके लिए, यह वास्तव में मायने नहीं रखता कि हम यह या कोई अन्य प्रतियोगिता जीतते हैं।

लेकिन दूसरी ओर, इस तरह के प्रतिष्ठित पुरस्कार जीतने का मतलब अनबैबेल ब्रांड के लिए मान्यता है, जो ग्राहकों और निवेशकों का ध्यान आकर्षित करने के लिए आवश्यक है। यह एआई टीम के लिए भी एक महत्वपूर्ण मान्यता है, जिसके काम को समझना और उसे श्रेय देना कभी-कभी कठिन होता है। एआई बहुत उच्च जोखिम, उच्च प्रतिफल वाला है। आप एक साल तक काम कर सकते हैं और कहीं नहीं पहुंच सकते। उदाहरण के लिए, मानव गुणवत्ता आकलन पर हमने जो भी काम किया वह काम नहीं आया, क्योंकि हमारे पास उसके लिए सही उपकरण नहीं थे।

और इसलिए ये पुरस्कार मान्यता के लिए, व्यवसाय और शिक्षा जगत में अनबेबेल नाम के बारे में जागरूकता बढ़ाने के लिए अच्छे हैं, लेकिन ये मनोबल के लिए भी अच्छे हैं। अनबैबेल पूरी तरह से एआई कंपनी है। हम केवल एआई का उपयोग नहीं कर रहे हैं, हम वास्तव में एआई का निर्माण और खोज कर रहे हैं जो अभी तक अस्तित्व में नहीं है। और इसके लिए सार्वजनिक रूप से स्वीकार किया जाना मेरे लिए बहुत मायने रखता है। मुझे लगता है कि मेरे 9 साल के बच्चे को, जो गणितज्ञ बनने की इच्छा है, गर्व होगा।

स्रोत: https://unbabel.com/blog/best-machine-translation-quality-estimation/

समय टिकट:

से अधिक unbabel