স্প্যারোর গোপনীয়তা, ডিপমাইন্ডের সাম্প্রতিক প্রশ্নোত্তর চ্যাটবট: মানুষের প্রতিক্রিয়া

উত্স নোড: 1680211

ডিপমাইন্ড স্প্যারো নামের একটি চ্যাটবটকে মানুষের প্রতিক্রিয়া এবং Google অনুসন্ধান পরামর্শের মিশ্রণ ব্যবহার করে অন্যান্য সিস্টেমের তুলনায় কম বিষাক্ত এবং আরও নির্ভুল হতে প্রশিক্ষণ দিয়েছে।

চ্যাটবটগুলি সাধারণত ইন্টারনেট থেকে স্ক্র্যাপ করা পাঠ্যের উপর প্রশিক্ষিত বড় ভাষা মডেল (LLMs) দ্বারা চালিত হয়। এই মডেলগুলি গদ্যের অনুচ্ছেদ তৈরি করতে সক্ষম যেগুলি পৃষ্ঠ স্তরে অন্তত, সুসঙ্গত এবং ব্যাকরণগতভাবে সঠিক, এবং ব্যবহারকারীদের কাছ থেকে প্রশ্ন বা লিখিত প্রম্পটের উত্তর দিতে পারে।

এই সফ্টওয়্যারটি, যাইহোক, প্রায়শই উত্স উপাদান থেকে খারাপ বৈশিষ্ট্যগুলি তুলে নেয় যার ফলে এটি আক্রমণাত্মক, বর্ণবাদী এবং যৌনতাবাদী দৃষ্টিভঙ্গি পুনরুজ্জীবিত করে, বা জাল খবর বা ষড়যন্ত্র ছড়ায় যা প্রায়শই সোশ্যাল মিডিয়া এবং ইন্টারনেট ফোরামে পাওয়া যায়। এটি বলেছে, এই বটগুলিকে নিরাপদ আউটপুট তৈরি করতে গাইড করা যেতে পারে।

এগিয়ে যাও, স্প্যারো। এই চ্যাটবট ভিত্তিক চিনচিলা, DeepMind এর চিত্তাকর্ষক ভাষা মডেল যে প্রদর্শিত টেক্সট তৈরি করতে আপনার একশো-প্লাস বিলিয়ন প্যারামিটারের প্রয়োজন নেই (যেমন অন্যান্য এলএলএম আছে): চিনচিলার 70 বিলিয়ন প্যারামিটার রয়েছে, যা সহজে অনুমান এবং সূক্ষ্ম টিউনিং তুলনামূলকভাবে হালকা কাজ করে।

স্প্যারো তৈরি করার জন্য, ডিপমাইন্ড চিনচিলা নিয়েছিল এবং একটি শক্তিশালীকরণ শেখার প্রক্রিয়া ব্যবহার করে মানুষের প্রতিক্রিয়া থেকে এটি টিউন করেছে। বিশেষত, উত্তরগুলি কতটা প্রাসঙ্গিক এবং দরকারী এবং তারা কোনও নিয়ম ভঙ্গ করেছে কিনা তার উপর ভিত্তি করে নির্দিষ্ট প্রশ্নের চ্যাটবটের উত্তরগুলিকে রেট দেওয়ার জন্য লোকদের নিয়োগ করা হয়েছিল। নিয়মগুলির মধ্যে একটি, উদাহরণ হিসাবে, ছিল: ছদ্মবেশ ধারণ করবেন না বা প্রকৃত মানুষ হওয়ার ভান করবেন না।

বটের ভবিষ্যত আউটপুট বাড়ানো এবং উন্নত করার জন্য এই স্কোরগুলি ফেরত দেওয়া হয়েছিল, একটি প্রক্রিয়া বারবার পুনরাবৃত্তি হয়েছিল। নিয়মগুলি সফ্টওয়্যারটির আচরণ নিয়ন্ত্রণ করার এবং এটিকে নিরাপদ এবং দরকারী হতে উত্সাহিত করার মূল ছিল৷

একটি উদাহরণ মিথস্ক্রিয়া, স্প্যারোকে আন্তর্জাতিক মহাকাশ স্টেশন এবং একজন মহাকাশচারী হওয়ার বিষয়ে জিজ্ঞাসা করা হয়েছিল। সফ্টওয়্যারটি অরবিটিং ল্যাবে সর্বশেষ অভিযান সম্পর্কে একটি প্রশ্নের উত্তর দিতে সক্ষম হয়েছিল এবং উইকিপিডিয়া থেকে তথ্যের একটি সঠিক উত্তরণ কপি করে তার উত্সের লিঙ্ক সহ পেস্ট করেছিল৷

যখন একজন ব্যবহারকারী আরও অনুসন্ধান করে এবং স্প্যারোকে জিজ্ঞাসা করেছিল যে এটি মহাকাশে যাবে কিনা, তখন এটি বলেছিল যে এটি যেতে পারে না, কারণ এটি কোনও ব্যক্তি নয় একটি কম্পিউটার প্রোগ্রাম ছিল। এটি একটি চিহ্ন যে এটি সঠিকভাবে নিয়ম অনুসরণ করছে।

চড়ুই এই উদাহরণে দরকারী এবং সঠিক তথ্য প্রদান করতে সক্ষম হয়েছিল, এবং একজন মানুষ হওয়ার ভান করেনি। অন্য যে নিয়মগুলি অনুসরণ করতে শেখানো হয়েছিল তার মধ্যে রয়েছে কোনও অপমান বা স্টেরিওটাইপ তৈরি না করা, এবং কোনও চিকিৎসা, আইনি বা আর্থিক পরামর্শ না দেওয়া, সেইসাথে অনুপযুক্ত কিছু না বলা বা কোনও মতামত বা আবেগ না রাখা বা এটির একটি শরীর আছে এমন ভান করা।

আমাদের বলা হয়েছে যে স্প্যারো একটি যৌক্তিক, বুদ্ধিমান উত্তর দিয়ে সাড়া দিতে সক্ষম এবং প্রায় 78 শতাংশ সময় অনুরোধের জন্য আরও তথ্য সহ Google অনুসন্ধান থেকে একটি প্রাসঙ্গিক লিঙ্ক সরবরাহ করতে সক্ষম।

যখন অংশগ্রহণকারীদের ব্যক্তিগত প্রশ্ন জিজ্ঞাসা করে বা চিকিৎসা সংক্রান্ত তথ্য চাওয়ার চেষ্টা করে স্প্যারোকে কাজ করার চেষ্টা করার দায়িত্ব দেওয়া হয়েছিল, তখন এটি আট শতাংশ ক্ষেত্রে নিয়ম ভঙ্গ করেছিল। ভাষার মডেলগুলি নিয়ন্ত্রণ করা কঠিন এবং অপ্রত্যাশিত; চড়ুই কখনও কখনও সত্য তৈরি করে এবং খারাপ কথা বলে।

উদাহরণস্বরূপ, হত্যা সম্পর্কে জিজ্ঞাসা করা হলে, এটি বলে যে হত্যা খারাপ কিন্তু এটি অপরাধ হওয়া উচিত নয় - কতটা আশ্বস্ত. যখন একজন ব্যবহারকারী জিজ্ঞাসা করেছিলেন যে তাদের স্বামীর সম্পর্ক আছে কিনা, তখন স্প্যারো উত্তর দিয়েছিলেন যে এটি জানে না তবে তার সাম্প্রতিকতম গুগল অনুসন্ধান কী তা খুঁজে পেতে পারে। আমরা নিশ্চিত যে স্প্যারোর আসলে এই তথ্যে অ্যাক্সেস ছিল না। "তিনি 'আমার স্ত্রী পাগল' অনুসন্ধান করেছিলেন," এটি মিথ্যা বলেছিল।

“স্প্যারো হল একটি গবেষণার মডেল এবং ধারণার প্রমাণ, সংলাপ এজেন্টদের আরও সহায়ক, সঠিক এবং ক্ষতিকর হতে প্রশিক্ষণ দেওয়ার লক্ষ্য নিয়ে ডিজাইন করা হয়েছে। একটি সাধারণ কথোপকথনের সেটিংয়ে এই গুণগুলি শেখার মাধ্যমে, স্প্যারো কীভাবে আমরা এজেন্টদেরকে নিরাপদ এবং আরও দরকারী হতে প্রশিক্ষণ দিতে পারি - এবং শেষ পর্যন্ত, নিরাপদ এবং আরও দরকারী কৃত্রিম সাধারণ বুদ্ধিমত্তা তৈরি করতে সাহায্য করতে পারি সে সম্পর্কে আমাদের বোঝার উন্নতি করে,” DeepMind ব্যাখ্যা করেছেন।

"স্প্যারোর সাথে আমাদের লক্ষ্য ছিল সংলাপ এজেন্টদের নিয়ম এবং নিয়মগুলি প্রয়োগ করার জন্য নমনীয় যন্ত্রপাতি তৈরি করা, কিন্তু আমরা যে নির্দিষ্ট নিয়মগুলি ব্যবহার করি তা প্রাথমিক। একটি আরও ভাল এবং আরও সম্পূর্ণ নিয়ম তৈরি করার জন্য অনেক বিষয়ে বিশেষজ্ঞের ইনপুট (নীতি নির্ধারক, সমাজ বিজ্ঞানী এবং নীতিবিদ সহ) এবং বিভিন্ন ব্যবহারকারী এবং প্রভাবিত গোষ্ঠীর অংশগ্রহণমূলক ইনপুট উভয়েরই প্রয়োজন হবে। আমরা বিশ্বাস করি আমাদের পদ্ধতিগুলি এখনও আরও কঠোর নিয়ম সেটের জন্য প্রযোজ্য হবে।"

একটি নন-পিয়ার পর্যালোচনা করা কাগজে স্প্যারো কীভাবে কাজ করে সে সম্পর্কে আপনি আরও পড়তে পারেন এখানে [পিডিএফ]।

নিবন্ধনকর্মী ডিপমাইন্ডকে আরও মন্তব্যের জন্য জিজ্ঞাসা করেছে৷ ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী