مشین ٹرانسلیشن کو حل کرنا، ایک وقت میں ایک قدم

ماخذ نوڈ: 795289

بچپن میں، میں نے سوچا کہ میں بڑا ہو کر ریاضی دان یا طبیعیات دان بنوں گا۔ میں بہت جلد سمجھ گیا تھا کہ میں ان شعبوں میں سے کسی ایک میں پڑھنا اور تحقیق کرنا چاہتا ہوں، یا استاد بھی بننا چاہتا ہوں۔ میں نہیں جانتا تھا کہ AI کیا ہے۔ درحقیقت، کمپیوٹر سائنس میں انڈرگریڈ طالب علم کے طور پر پہلے سالوں کے دوران، میں نے کئی بار محسوس کیا کہ مجھے ریاضی کی طرف جانا چاہیے۔ مجھے خوشی ہے کہ میں نے ایسا نہیں کیا۔

میری دادی واقعی میں نہیں سمجھتی ہیں کہ میرا کام کیا ہے، کیونکہ ایسا کرنے کے لیے، آپ کو انٹرنیٹ استعمال کرنا ہوگا۔ اگر آپ ایسا نہیں کرتے ہیں، اور میں آپ کو بتاتا ہوں کہ، Unbabel میں، ہم کمپیوٹرز کو خود بخود انسانی اعمال کرنے پر مجبور کر رہے ہیں، تو آپ شاید وہاں بیٹھیں گے اور خالی نظروں سے میری طرف گھوریں گے۔

ایک طرح سے، میں ایک بہت مختلف جگہ پر نہیں پہنچا جس کا میں نے بچپن میں تصور کیا تھا۔ میرا مطلب ہے کہ مشینی ترجمہ کا یہ پورا فیلڈ دوسری جنگ عظیم کے بعد وارین ویور کے ساتھ شروع ہوا، ایلن ٹیورنگ، ایک ریاضی دان کے اینگما کوڈ کو کریک کرنے کے بعد۔

خیال یہ ہے کہ ہم زبان کو ایک کوڈ کے طور پر دیکھ سکتے ہیں۔ فرق یہ ہے کہ کوڈ رسمی، غیر مبہم ہوتے ہیں۔ اور جو چیز ترجمہ کو اتنا مشکل بناتی ہے وہ بالکل ابہام ہے۔

مشینی ترجمہ کی حالت

کچھ لوگوں کو اس بارے میں کچھ علم ہوتا ہے کہ Unbabel کیا کرتا ہے: ہم ایک مخصوص زبان میں متن کا مختلف زبان میں ترجمہ کرتے ہیں۔ لیکن دوسروں کو یہ بھی نہیں معلوم کہ مصنوعی ذہانت کیا ہے۔ کچھ لوگ سوچ سکتے ہیں کہ AI سب کچھ "روبوٹ چیزیں" کرتا ہے، لیکن ایسا نہیں ہے۔ AI جو کچھ کر رہا ہے وہ انسانی رویے کی نقل کر رہا ہے، ایک طرح سے، اور کچھ چیزوں میں یہ انسانوں سے بھی بہتر ہے۔ اس پر.

آئیے بنیادی باتوں سے شروع کریں: مشین لرننگ سسٹم کیا کرتے ہیں؟ آپ انہیں ایک سورس آبجیکٹ کے ساتھ پیش کرتے ہیں، اس معاملے میں ایک جملہ، اور آپ ان سے کسی چیز کی پیشین گوئی کرنے کو کہتے ہیں، ایک ہدف والا جملہ۔

ترجمہ کے ساتھ مشکل یہ ہے کہ کوئی گولڈ اسٹینڈرڈ نہیں ہے۔ گولڈ اسٹینڈرڈ اصل سچائی کے لیے کھڑا ہے۔ اگر آپ "یہ بلی ہے یا کتا؟" پوچھ کر تصاویر کا پتہ لگانے کے لیے مشین حاصل کرنے کی کوشش کر رہے ہیں، تو ایک سنہری سچائی ہے کیونکہ ایک مخصوص تصویر ایک یا دوسری ہو گی۔ مشینی ترجمہ میں یہ موجود نہیں ہے، کیونکہ آپ کے پاس 20 مختلف ترجمے ہوسکتے ہیں جو اتنے ہی اچھے ہیں۔ اس کے ساتھ شروع کرنا ایک بہت مشکل مسئلہ ہے۔ اچھا ترجمہ کیا ہے اور کیا نہیں؟ یہ حقیقت بھی ہے کہ زبان انتہائی مبہم ہے۔ الفاظ کا مطلب مختلف سیاق و سباق میں بہت مختلف چیزیں ہو سکتی ہیں۔ اور اس طرح ترجمے کا مسئلہ بڑی حد تک حل طلب ہے۔

اگر آپ مشینی ترجمے میں گہرائی سے دیکھیں تو آپ دیکھیں گے کہ یہ کچھ سال پہلے سے زیادہ بہتر نہیں ہے، اس کے باوجود کہ زیادہ تر لوگ کیا سوچتے ہیں۔ شماریاتی مشینی ترجمہ کے نظام کے پچھلے نتائج بہت غیر فطری یا روبوٹک لگتے تھے۔ آج وہ زیادہ روانی سے لگ سکتے ہیں، لیکن وہ پچھلے لوگوں کے مقابلے میں کم مناسب ہیں، جن میں عام طور پر صحیح مواد ہوتا ہے حالانکہ اسے سمجھنا مشکل ہو سکتا ہے۔ آج کل مشینی ترجمے مواد کے لحاظ سے تباہ کن طور پر ناکام ہو سکتے ہیں، لیکن پھر بھی روانی سے سنائی دیتے ہیں۔ مجموعی طور پر یہ ایک بہتر نظام ہے۔

مشینی ترجمہ ایک ایسے مقام پر پہنچ گیا ہے جہاں سے کوئی کم از کم متن کا خلاصہ سمجھ سکتا ہے۔ ماڈلز اب بھی بہت بنیادی ہونے اور زبان کے بارے میں کم علم رکھنے کے باوجود یہ زیادہ روانی ہو رہا ہے۔ وہ اب بھی زیادہ تر جملے کی فی جملہ سطح پر کام کر رہے ہیں۔ لہذا جو بھی سوچتا ہے کہ مشینی ترجمہ حل ہو گیا ہے، اس نے واضح طور پر اسے استعمال نہیں کیا ہے۔

Unbabel کے لیے بطور کمپنی، جو اسے فروخت کر رہی ہے۔ کثیر لسانی معاونت کے حل بڑی کمپنیوں کے لیے جو روزانہ ہزاروں یا لاکھوں صارفین کے ساتھ بات چیت کرتی ہیں، یہ ایک مسئلہ پیدا کرتا ہے کیونکہ زیادہ تر وقت، جب آپ مشینی ترجمہ کا ذکر کرتے ہیں، لوگ فوری طور پر اس کی غلطیوں کے بارے میں سوچتے ہیں۔. آپ صرف کہانیاں نہیں بنا سکتے تاکہ یہ محسوس ہو کہ مشینی ترجمہ کامل ہے، یہ وہ جگہ ہے جہاں یہ اس وقت ہے۔ یہ اب بھی لوپ میں ایک انسان سے مطالبہ کرتا ہے کہ وہ اسے وہ اضافی معیار فراہم کرے۔

چیٹ میں، مثال کے طور پر، ایک ایسا شخص ہے جو درحقیقت دوسرے شخص سے بات کر رہا ہے، جس کا مطلب ہے کہ آپ غلطیوں سے بہت تیزی سے ٹھیک ہو سکتے ہیں۔ اگر آپ کوئی ایسی بات کہتے ہیں جس کا کوئی مطلب نہیں ہے، تو دوسری طرف والا شخص کہے گا "کیا؟ مجھے وہ سمجھ نہیں آیا”، اور پھر آپ ترجمہ کی دوبارہ کوشش کریں گے۔

اس کا بنیادی مطلب یہ ہے کہ آپ اپنے معیار کا اندازہ لگا رہے ہیں، کیونکہ دن کے اختتام پر، آپ جو چاہتے ہیں وہ ایک مکالمہ ہے جو کام کرتا ہے۔

معیار کے تخمینہ کی اہمیت

معیار کا تخمینہ - جسے ہم حوالہ ترجمے یا انسانی مداخلت تک رسائی کے بغیر ترجمے کے نظام کے معیار کو جانچنے کے لیے استعمال کرتے ہیں - مشینی ترجمہ کا راز ہے۔ درحقیقت، کچھ لوگوں نے دعویٰ کیا ہے کہ اس سے "صحیح ترجمہ کون سا ہے؟" کا مسئلہ حل ہو سکتا ہے، کیونکہ اب ہمارے پاس ایک ایسا نظام موجود ہے جو اس بات کا اندازہ لگاتا ہے کہ ترجمہ کتنا اچھا یا برا ہے۔ اس کا مطلب یہ نہیں ہے کہ ترجمہ ہے۔ la ایک درست، لیکن یہ ہے a صحیح ترجمہ

لیکن معیار کا تخمینہ مشینی ترجمہ جیسی تمام مشکلات کا شکار ہے، جس کا مطلب ہے کہ آپ اس سے اسی سطح کی درستگی کی توقع کر سکتے ہیں۔ مشینی ترجمہ کے ساتھ سب سے بڑا مسئلہ یہ ہے کہ یہ ہمیشہ غلطیاں کرتا ہے کیونکہ زبان کو سمجھنا بہت مشکل ہوتا ہے۔ یا تو ایسے ماڈلز کی وجہ سے جو کمپیوٹیشن پاور کی وجہ سے بہت آسان ہیں یا اس حقیقت کی وجہ سے کہ کوئی بھی مشین لرننگ سسٹم غلطیاں کرے گا، بہترین ایکویٹی تقریباً 90 فیصد کے قریب ہے۔ یہ بہت کچھ لگتا ہے، لیکن اگر آپ اس کے بارے میں سوچتے ہیں، تو اس کا مطلب ہے کہ ہر دس جملوں میں سے ایک غلط ہو رہا ہے۔

معیار کا تخمینہ ان غلط جملوں کی پیشین گوئی کرنے کی کوشش کر رہا ہے، یا کم از کم یہ فیصلہ کرنے کی کوشش کر رہا ہے کہ غلطی اہم ہے یا نہیں۔ یہ بنیادی طور پر ہمیں مشینی ترجمہ کو بہت زیادہ اعتماد کے ساتھ استعمال کرنے کی اجازت دیتا ہے۔

Unbabel میں، ہم معیار کے تخمینے کے مسئلے کو حل کرنے کے لیے اپنا کافی وقت صرف کر رہے ہیں. بنیادی AI ٹیم وہ ہے جو زیادہ تر اس پر توجہ مرکوز کرتی ہے، نئے ماڈلز دریافت کرتی ہے۔ پھر لاگو AI اور پروڈکشن سے بہت سارے کام کیے گئے ہیں، جیسے سوالات کے جوابات دینے کے لیے:

  • یہ پائپ لائن پر کیسے چلتا ہے؟
  • کیا یہ توسیع پذیر ہے؟ کیا ہمیں مقصد بدلنے کی ضرورت ہے؟
  • یہ ہمارے عملی ڈیٹا کے ساتھ کیسے کام کرتا ہے؟
  • آپ ان ماڈلز کی موافقت کیسے کرتے ہیں؟

چونکہ بنیادی AI زیادہ تر عام ڈومین ڈیٹا پر کام کرتا ہے، اس لیے لاگو AI کو اسے اٹھانا ہوگا اور یہ یقینی بنانا ہوگا کہ یہ ہماری چیٹ یا ٹکٹس کی حقیقت پر کام کرتا ہے، اگر یہ مختلف ٹونز کے ساتھ کام کرتا ہے یا نہیں۔ وہاں تحقیق ہے، پھر اس کے نتائج پروڈکٹ میں کام کر رہے ہیں۔

ہم اپنے معیار کے تخمینے کے نظام پر پختہ یقین رکھتے ہیں۔ ہم تولیدی اور باہمی تعاون پر مبنی تحقیق پر بھی یقین رکھتے ہیں، یہی وجہ ہے کہ کچھ مہینے پہلے ہم نے اوپن کیوی بنایا - ایک اوپن سورس فریم ورک جو بہترین معیار کے تخمینے کے نظام کو نافذ کرتا ہے۔, ایک ہی فریم ورک کے تحت ان ماڈلز کے ساتھ تجربہ کرنا اور اعادہ کرنا، نیز نئے ماڈلز تیار کرنا واقعی آسان بناتا ہے۔

ہم شاید ان پہلی کمپنیوں میں سے ایک تھے جنہوں نے پیداوار میں معیار کا تخمینہ استعمال کرنا شروع کیا اور ہم کافی عرصے سے اس موضوع پر تحقیق کر رہے ہیں۔ اس کا مطلب ہے کہ ہمارے پاس معیار کے تخمینے پر کام کرنے والی دیگر کمپنیوں یا محققین کے مقابلے میں بہتر ماڈل اور مسئلے کی بہتر تفہیم ہے۔

اور ایوارڈز جاتے ہیں…

یہی وجہ ہے کہ میں بہت خوش تھا ہم ورلڈ مشین ٹرانسلیشن کی کانفرنس میں بہترین عالمی مشین ٹرانسلیشن کوالٹی اسٹیمیشن سسٹم کا ٹائٹل دوبارہ حاصل کیا اس سال کے شروع میں. یہی نہیں بلکہ ہم نے خودکار پوسٹ ایڈیٹنگ کا مقابلہ بھی جیت لیا۔

یہ ہمارے لیے دو وجوہات کی بنا پر بہت اہم تھا۔ پہلا وہ اثر ہے جو معیار کا تخمینہ ہماری پروڈکشن پائپ لائن پر پڑ رہا ہے، سرمایہ کاری پر واپسی جو ہم اس سے حاصل کر رہے ہیں۔ اور اس کے لیے، اس سے کوئی فرق نہیں پڑتا کہ ہم یہ یا کوئی دوسرا مقابلہ جیتتے ہیں۔

لیکن دوسری طرف، ایسے باوقار ایوارڈز جیتنے کا مطلب ہے Unbabel برانڈ کی پہچان، جو صارفین اور سرمایہ کاروں کی توجہ حاصل کرنے کے لیے ضروری ہے۔ یہ AI ٹیم کے لیے بھی ایک اہم پہچان ہے، جس کے کام کو سمجھنا اور اسے کریڈٹ دینا بعض اوقات مشکل ہوتا ہے۔ AI بہت زیادہ خطرہ، اعلی انعام ہے۔ آپ ایک سال تک کام کر سکتے ہیں اور کہیں نہیں جا سکتے۔ مثال کے طور پر، ہم نے اپنے انسانی معیار کے تخمینے پر جو بھی کام کیا وہ کام نہیں کر سکا، کیونکہ ہمارے پاس اس کے لیے صحیح ٹولز نہیں تھے۔

اور اس لیے یہ ایوارڈز پہچان کے لیے اچھے ہیں، کاروبار اور اکیڈمی میں Unbabel نام کے بارے میں آگاہی بڑھانے کے لیے، لیکن یہ حوصلے کے لیے بھی اچھے ہیں۔ Unbabel ایک خالصتاً AI کمپنی ہے۔ ہم صرف AI استعمال نہیں کر رہے ہیں، ہم دراصل AI بنا رہے ہیں اور دریافت کر رہے ہیں جو ابھی موجود نہیں ہے۔ اور اس کے لیے عوامی طور پر تسلیم کیے جانے کا مطلب میرے لیے دنیا ہے۔ مجھے لگتا ہے کہ میرا 9 سالہ، ریاضی دان خود کو فخر محسوس کرے گا۔

ماخذ: https://unbabel.com/blog/best-machine-translation-quality-estimation/

ٹائم اسٹیمپ:

سے زیادہ غیربل