মেশিন অনুবাদ সমাধান করা, এক সময়ে এক ধাপ

উত্স নোড: 795289

ছোটবেলায়, আমি ভেবেছিলাম আমি বড় হয়ে একজন গণিতবিদ বা পদার্থবিদ হব। আমি খুব তাড়াতাড়ি বুঝতে পেরেছিলাম যে আমি সেই ক্ষেত্রগুলির মধ্যে একটিতে অধ্যয়ন করতে এবং গবেষণা করতে বা এমনকি একজন শিক্ষক হতে চাই। আমি জানতাম না AI কি। প্রকৃতপক্ষে, কম্পিউটার সায়েন্সের একজন স্নাতক ছাত্র হিসাবে প্রথম বছরগুলিতে, আমি অনেকবার অনুভব করেছি যে আমার গণিতে পরিবর্তন করা উচিত। আমি খুশি যে আমি না.

আমার দাদি আসলেই বুঝতে পারেন না যে আমার কাজ কি, কারণ এটি করার জন্য আপনাকে ইন্টারনেট ব্যবহার করতে হবে। যদি আপনি না করেন, এবং আমি আপনাকে বলি যে, আনবাবেলে, আমরা কম্পিউটারগুলিকে স্বয়ংক্রিয়ভাবে মানুষের ক্রিয়াকলাপ করতে দিচ্ছি, আপনি সম্ভবত সেখানে বসে থাকবেন এবং আমার দিকে শূন্য দৃষ্টিতে তাকিয়ে থাকবেন।

একটি উপায়ে, আমি একটি শিশু হিসাবে কল্পনা করেছিলাম তার চেয়ে খুব আলাদা জায়গায় শেষ হয়নি। মানে, এই পুরো মেশিন অনুবাদ ক্ষেত্রটি ওয়ারেন ওয়েভারের সাথে শুরু হয়েছিল দ্বিতীয় বিশ্বযুদ্ধের পরে, অ্যালেন টুরিং, একজন গণিতবিদ, এনিগমা কোড ক্র্যাক করার পরে।

ধারণাটি হল যে আমরা ভাষাকে একটি কোড হিসাবে বিবেচনা করতে পারি। পার্থক্য হল যে কোডগুলি আনুষ্ঠানিক, দ্ব্যর্থহীন; এবং যা অনুবাদকে এত কঠিন করে তোলে তা হল অবিকল অস্পষ্টতা।

মেশিন অনুবাদের অবস্থা

আনবাবেল যা করে সে সম্পর্কে কিছু লোকের কিছু ধরণের জ্ঞান থাকে: আমরা একটি নির্দিষ্ট ভাষায় একটি পাঠ্যকে অন্য ভাষায় অনুবাদ করি। কিন্তু অন্যরা কৃত্রিম বুদ্ধিমত্তা কি তাও জানে না। কেউ কেউ ভাবতে পারে যে এআই যা করে তা হল "রোবট জিনিস", কিন্তু তা নয়। এআই যা করছে তা মানব আচরণকে অনুকরণ করছে, কোনোভাবে, এবং কিছু কিছুতে এটি মানুষের চেয়েও ভালো এটি এ।

আসুন মূল বিষয়গুলি দিয়ে শুরু করা যাক: মেশিন লার্নিং সিস্টেমগুলি কী করে? আপনি তাদের একটি উৎস বস্তুর সাথে উপস্থাপন করেন, এই ক্ষেত্রে একটি বাক্য, এবং আপনি তাদের কিছু ভবিষ্যদ্বাণী করতে বলেন, একটি লক্ষ্য বাক্য।

অনুবাদের অসুবিধা হল কোন সোনার মান নেই। একটি সোনার মান প্রকৃত সত্যের জন্য দাঁড়িয়েছে। আপনি যদি "এটি একটি বিড়াল না একটি কুকুর?" জিজ্ঞাসা করে ছবি সনাক্ত করার জন্য একটি মেশিন পেতে চেষ্টা করছেন, একটি স্বর্ণ সত্য কারণ একটি নির্দিষ্ট চিত্র এক বা অন্য হবে। মেশিন অনুবাদে এটি বিদ্যমান নেই, কারণ আপনার 20টি ভিন্ন অনুবাদ থাকতে পারে যা সমানভাবে ভাল। এটি দিয়ে শুরু করা অনেক কঠিন সমস্যা। একটি ভাল অনুবাদ কি এবং কি নয়? এছাড়াও সত্য যে ভাষা অত্যন্ত অস্পষ্ট। শব্দের অর্থ বিভিন্ন প্রসঙ্গে ভিন্ন ভিন্ন জিনিস হতে পারে। আর তাই অনুবাদের সমস্যা অনেকাংশে অমীমাংসিত।

আপনি যদি মেশিন ট্রান্সলেশনের গভীরে তাকান, আপনি দেখতে পাবেন যে এটি কয়েক বছর আগের তুলনায় অনেক বেশি ভালো নয়, অধিকাংশ লোক যা ভাবছে তা সত্ত্বেও। পরিসংখ্যানগত মেশিন অনুবাদ সিস্টেমের পূর্ববর্তী আউটপুটগুলি খুব অপ্রাকৃত বা রোবোটিক বলে মনে হয়েছিল। আজ সেগুলি আরও সাবলীল শোনাতে পারে, তবে সেগুলি আগেরগুলির তুলনায় কম পর্যাপ্ত, যেগুলি সাধারণত সঠিক সামগ্রী ছিল যদিও এটি বোঝা কঠিন হতে পারে৷ মেশিন অনুবাদ আজকাল বিষয়বস্তুর পরিপ্রেক্ষিতে বিপর্যয়মূলকভাবে ব্যর্থ হতে পারে, কিন্তু এখনও সাবলীল শোনাচ্ছে। সামগ্রিকভাবে এটি একটি ভাল সিস্টেম।

মেশিন অনুবাদ এমন এক পর্যায়ে এসেছে যেখানে কেউ অন্তত পাঠ্যটির সারাংশ বুঝতে পারে। মডেলগুলি এখনও খুব মৌলিক এবং ভাষার সামান্য জ্ঞান থাকা সত্ত্বেও এটি আরও সাবলীল হয়ে উঠছে। তারা এখনও প্রতি বাক্য স্তরে এক ধরণের বাক্যে কাজ করছে। তাই যে কেউ মনে করে যে মেশিন অনুবাদ সমাধান করা হয়েছে, স্পষ্টতই এটি ব্যবহার করেনি।

একটি কোম্পানি হিসাবে Unbabel জন্য, যারা এটি বিক্রি করছে বহুভাষিক সমর্থন সমাধান প্রধান সংস্থাগুলি যারা প্রতিদিন হাজার হাজার বা লক্ষ লক্ষ গ্রাহকের সাথে যোগাযোগ করে, এটি একটি সমস্যা তৈরি করে কারণ বেশিরভাগ সময়, যখন আপনি মেশিন অনুবাদ উল্লেখ করেন, মানুষ অবিলম্বে এটা করে ভুল চিন্তা. মেশিন অনুবাদ নিখুঁত বলে মনে করার জন্য আপনি কেবল গল্পগুলি তৈরি করতে পারবেন না, এটি এই মুহুর্তে যেখানে রয়েছে। এটি এখনও মানের অতিরিক্ত বিট দেওয়ার জন্য লুপে একজন মানুষকে ডাকে।

চ্যাটে, উদাহরণস্বরূপ, একজন ব্যক্তি আছেন যিনি আসলে অন্য ব্যক্তির সাথে কথা বলছেন, যার অর্থ আপনি ত্রুটিগুলি থেকে অনেক দ্রুত পুনরুদ্ধার করতে পারেন। আপনি যদি এমন কিছু বলেন যার অর্থ হয় না, অন্য প্রান্তের ব্যক্তিটি বলতে পারে "কী? আমি তা পাইনি”, এবং তারপরে আপনি অনুবাদটি পুনরায় চেষ্টা করবেন।

এর মূলত অর্থ হল আপনি আপনার নিজের গুণমানের অনুমান হচ্ছেন, কারণ, দিনের শেষে, আপনি যা চান তা হল একটি সংলাপ যা কাজ করে।

গুণমান অনুমানের গুরুত্ব

গুণমান অনুমান - রেফারেন্স অনুবাদ বা মানুষের হস্তক্ষেপের অ্যাক্সেস ছাড়াই আমরা একটি অনুবাদ সিস্টেমের গুণমান মূল্যায়ন করতে যা ব্যবহার করি - মেশিন অনুবাদের গোপনীয়তা। প্রকৃতপক্ষে, কিছু লোক দাবি করেছে যে এটি "সঠিক অনুবাদ কোনটি?" সমস্যার সমাধান করতে পারে, কারণ এখন আমাদের কাছে এমন একটি সিস্টেম রয়েছে যা একটি অনুবাদ কতটা ভাল বা খারাপ তা মূল্যায়ন করে। এটা অগত্যা একটি অনুবাদ মানে না দ্য সঠিক একটি, কিন্তু এটা a সঠিক অনুবাদ।

কিন্তু গুণমান অনুমান মেশিন অনুবাদের মতো একই অসুবিধার সম্মুখীন হয়, যার মানে আপনি এটি থেকে একই স্তরের নির্ভুলতা আশা করতে পারেন। মেশিন অনুবাদের সবচেয়ে বড় সমস্যা হল, এটি সবসময় ভুল করে কারণ ভাষা বোঝা খুব কঠিন। হয় মডেলগুলির কারণে যেগুলি গণনার ক্ষমতার কারণে খুব সহজ বা যে কোনও মেশিন লার্নিং সিস্টেম ভুল করবে, সেরা ইকুইটিগুলি প্রায় 90 শতাংশের কাছাকাছি। এটি অনেকের মতো মনে হতে পারে, কিন্তু আপনি যদি এটি সম্পর্কে চিন্তা করেন, তার মানে প্রতি দশটি বাক্যে একটি ভুল হতে চলেছে।

গুণমান অনুমান সেই ভুল বাক্যগুলির ভবিষ্যদ্বাণী করার চেষ্টা করছে, বা অন্ততপক্ষে একটি ত্রুটি সমালোচনামূলক কিনা তা বিচার করার চেষ্টা করছে। এটি মূলত আমাদের অনেক বেশি আত্মবিশ্বাসের সাথে মেশিন অনুবাদ ব্যবহার করার অনুমতি দেবে।

Unbabel-এ, আমরা আমাদের অনেক সময় মানের অনুমান সমস্যা সমাধানের জন্য উৎসর্গ করছি. মৌলিক এআই টিম হল সেই ব্যক্তি যারা বেশিরভাগই এটির উপর দৃষ্টি নিবদ্ধ করে, নতুন মডেল আবিষ্কার করে। তারপরে প্রয়োগকৃত AI এবং উত্পাদন থেকে অনেক কাজ করা হয়েছে, যেমন প্রশ্নের উত্তর দেওয়ার জন্য:

  • কিভাবে এই পাইপলাইন চালানো হয়?
  • এটা মাপযোগ্য? আমাদের কি লক্ষ্য পরিবর্তন করতে হবে?
  • এটা কিভাবে আমাদের ব্যবহারিক তথ্যের সাথে কাজ করে?
  • আপনি কিভাবে এই মডেলগুলির অভিযোজন করবেন?

যেহেতু মৌলিক AI বেশিরভাগ জেনেরিক ডোমেন ডেটাতে কাজ করে, তাই প্রয়োগকৃত AI-কে এটি তুলে নিতে হবে এবং নিশ্চিত করতে হবে যে এটি আমাদের চ্যাট বা টিকিটের বাস্তবতায় কাজ করে, যদি এটি ভিন্ন টোনের সাথে কাজ করে বা না করে। গবেষণা আছে, তারপর পণ্যের মধ্যে তার ফলাফল কাজ করছে.

আমরা আমাদের মান অনুমান সিস্টেম দৃঢ় বিশ্বাসী. আমরা প্রজননযোগ্য এবং সহযোগিতামূলক গবেষণায়ও বিশ্বাস করি, যে কারণে কয়েক মাস আগে আমরা ওপেন কিউই তৈরি করেছি — একটি ওপেন-সোর্স ফ্রেমওয়ার্ক যা সর্বোত্তম গুণমান অনুমান সিস্টেম প্রয়োগ করে, একই কাঠামোর অধীনে এই মডেলগুলির সাথে পরীক্ষা করা এবং পুনরাবৃত্তি করা এবং সেইসাথে নতুন মডেলগুলি তৈরি করা সত্যিই সহজ করে তোলে৷

আমরা সম্ভবত প্রথম কোম্পানিগুলির মধ্যে একটি যারা উত্পাদনে গুণমান অনুমান ব্যবহার করা শুরু করেছিল এবং আমরা খুব দীর্ঘ সময়ের জন্য এই বিষয়ে গবেষণা করছি। এর মানে হল আমাদের কাছে আরও ভাল মডেল এবং সমস্যা সম্পর্কে আরও ভাল বোঝাপড়া রয়েছে অন্যান্য কোম্পানি বা গবেষকরা যারা গুণমান অনুমানে কাজ করছেন।

এবং পুরষ্কারগুলি যেতে…

এই কারণে আমি খুব খুশি ছিলাম আমরা ওয়ার্ল্ড মেশিন ট্রান্সলেশন কনফারেন্সে আমাদের সেরা গ্লোবাল মেশিন ট্রান্সলেশন কোয়ালিটি এস্টিমেশন সিস্টেমের শিরোনাম ফিরে পেয়েছে এই বছরের শুরুতে. শুধু তাই নয়, আমরা স্বয়ংক্রিয় পোস্ট সম্পাদনার প্রতিযোগিতাও জিতেছি।

দুটি কারণে এটি আমাদের জন্য খুবই গুরুত্বপূর্ণ ছিল। প্রথমটি হল গুণমানের অনুমান আমাদের উৎপাদন পাইপলাইনে যে প্রভাব ফেলছে, বিনিয়োগের রিটার্ন আমরা এটি থেকে পাচ্ছি। এবং এর জন্য, আমরা এই বা অন্য কোন প্রতিযোগিতায় জিতলে সেটা আসলে কোন ব্যাপার না।

কিন্তু অন্যদিকে, এই ধরনের মর্যাদাপূর্ণ পুরষ্কার জেতার অর্থ হল Unbabel ব্র্যান্ডের স্বীকৃতি, যা গ্রাহকদের এবং বিনিয়োগকারীদের মনোযোগ পাওয়ার জন্য অপরিহার্য। এটি এআই দলের জন্য একটি গুরুত্বপূর্ণ স্বীকৃতি, যাদের কাজ কখনও কখনও বোঝা এবং ক্রেডিট দেওয়া কঠিন। AI খুবই উচ্চ ঝুঁকি, উচ্চ পুরস্কার। আপনি এক বছরের জন্য কাজ করতে পারেন এবং কোথাও পেতে পারেন। উদাহরণস্বরূপ, আমাদের মানব মানের অনুমানের উপর আমরা যে সমস্ত কাজ করেছি তা কাজ করেনি, কারণ আমাদের কাছে এর জন্য সঠিক সরঞ্জাম ছিল না।

এবং তাই এই পুরষ্কারগুলি স্বীকৃতির জন্য, ব্যবসায় এবং একাডেমিয়ায় আনব্যাবেল নামের সচেতনতা বৃদ্ধির জন্য ভাল, তবে এগুলি মনোবলের জন্যও ভাল। Unbabel একটি সম্পূর্ণরূপে AI কোম্পানি। আমরা শুধু AI ব্যবহার করছি না, আমরা আসলে AI তৈরি করছি এবং আবিষ্কার করছি যা এখনও বিদ্যমান নেই। এবং এর জন্য সর্বজনীনভাবে স্বীকার করা মানে আমার কাছে বিশ্ব। আমি মনে করি আমার 9 বছর বয়সী, গণিতবিদ নিজে গর্বিত হবেন।

সূত্র: https://unbabel.com/blog/best-machine-translation-quality-estimation/

সময় স্ট্যাম্প:

থেকে আরো আনবাবেল

ইউরোপের দ্রুত বর্ধনশীল সংস্থা ড্যানিয়েল ওয়েলিংটন তার বিশ্বব্যাপী গ্রাহক সম্প্রদায়কে সমর্থন করতে আনবাবেল ব্যবহার করে

উত্স নোড: 824667
সময় স্ট্যাম্প: সেপ্টেম্বর 27, 2017