সারিবদ্ধকরণ গবেষণা আমাদের পদ্ধতি

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

AGI সারিবদ্ধ করার জন্য আমাদের পদ্ধতিটি অভিজ্ঞতামূলক এবং পুনরাবৃত্তিমূলক। আমরা মানুষের প্রতিক্রিয়া থেকে শেখার এবং AI মূল্যায়নে মানুষকে সহায়তা করার জন্য আমাদের AI সিস্টেমের ক্ষমতা উন্নত করছি। আমাদের লক্ষ্য হল পর্যাপ্তভাবে সারিবদ্ধ এআই সিস্টেম তৈরি করা যা আমাদের অন্যান্য সমস্ত প্রান্তিককরণ সমস্যা সমাধান করতে সাহায্য করতে পারে।

আমাদের প্রান্তিককরণ গবেষণা কৃত্রিম সাধারণ বুদ্ধিমত্তা (AGI) কে মানবিক মূল্যবোধের সাথে একত্রিত করা এবং মানুষের অভিপ্রায় অনুসরণ করার লক্ষ্য। আমরা একটি পুনরাবৃত্তিমূলক, অভিজ্ঞতামূলক পদ্ধতি অবলম্বন করি: অত্যন্ত সক্ষম AI সিস্টেমগুলিকে সারিবদ্ধ করার চেষ্টা করে, আমরা শিখতে পারি কী কাজ করে এবং কী করে না, এইভাবে AI সিস্টেমগুলিকে আরও নিরাপদ এবং আরও সারিবদ্ধ করার আমাদের ক্ষমতাকে পরিমার্জিত করে। বৈজ্ঞানিক পরীক্ষা-নিরীক্ষা ব্যবহার করে, আমরা অধ্যয়ন করি কিভাবে সারিবদ্ধকরণ কৌশলগুলি স্কেল করি এবং কোথায় সেগুলি ভাঙবে।

আমরা আমাদের সবচেয়ে সক্ষম AI সিস্টেমে সারিবদ্ধকরণ সমস্যাগুলির পাশাপাশি অ্যালাইনমেন্ট সমস্যাগুলি মোকাবেলা করি যা আমরা AGI-তে আমাদের পথে সম্মুখীন হওয়ার আশা করি। আমাদের প্রধান লক্ষ্য হল বর্তমান প্রান্তিককরণ ধারণাগুলিকে যতদূর সম্ভব ধাক্কা দেওয়া, এবং তারা কীভাবে সফল হতে পারে বা কেন তারা ব্যর্থ হবে তা সঠিকভাবে বোঝা এবং নথিভুক্ত করা। আমরা বিশ্বাস করি যে এমনকি মৌলিকভাবে নতুন প্রান্তিককরণ ধারণা ছাড়াই, আমরা সম্ভবত পর্যাপ্তভাবে সারিবদ্ধ এআই সিস্টেম তৈরি করতে পারি যাতে সারিবদ্ধকরণ গবেষণাকে যথেষ্ট অগ্রসর করা যায়।

ঐক্যবদ্ধ AGI মানবতার জন্য যথেষ্ট ঝুঁকি সৃষ্টি করতে পারে এবং AGI প্রান্তিককরণ সমস্যা সমাধান করা এত কঠিন হতে পারে যে এর জন্য সমস্ত মানবতার একসাথে কাজ করতে হবে। তাই আমরা আমাদের সারিবদ্ধকরণ গবেষণা খোলাখুলিভাবে ভাগ করে নিতে প্রতিশ্রুতিবদ্ধ যখন এটি করা নিরাপদ: আমরা আমাদের সারিবদ্ধকরণ কৌশলগুলি বাস্তবে কতটা ভালভাবে কাজ করে সে সম্পর্কে স্বচ্ছ হতে চাই এবং আমরা চাই প্রতিটি AGI বিকাশকারী বিশ্বের সেরা প্রান্তিককরণ কৌশলগুলি ব্যবহার করুক।

একটি উচ্চ-স্তরে, সারিবদ্ধকরণ গবেষণার জন্য আমাদের দৃষ্টিভঙ্গি মানুষের অভিপ্রায়ের সাথে সামঞ্জস্যপূর্ণ খুব স্মার্ট AI সিস্টেমের জন্য একটি স্কেলযোগ্য প্রশিক্ষণ সংকেত প্রকৌশলের উপর ফোকাস করে। এর তিনটি প্রধান স্তম্ভ রয়েছে:

মানুষের প্রতিক্রিয়া ব্যবহার করে এআই সিস্টেম প্রশিক্ষণ
মানুষের মূল্যায়নে সহায়তা করার জন্য এআই সিস্টেমের প্রশিক্ষণ
প্রান্তিককরণ গবেষণা করতে AI সিস্টেমকে প্রশিক্ষণ দেওয়া

মানবিক মূল্যবোধের সাথে AI সিস্টেমগুলিকে সারিবদ্ধ করা অন্যান্য গুরুত্বপূর্ণ আর্থ-প্রযুক্তিগত চ্যালেঞ্জগুলির একটি পরিসরও তৈরি করে, যেমন এই সিস্টেমগুলি কার সাথে সারিবদ্ধ করা উচিত তা নির্ধারণ করা। অর্জনের জন্য এই সমস্যাগুলি সমাধান করা গুরুত্বপূর্ণ আমাদের লক্ষ্য, কিন্তু আমরা এই পোস্টে তাদের আলোচনা না.

মানুষের প্রতিক্রিয়া ব্যবহার করে এআই সিস্টেম প্রশিক্ষণ

মানুষের প্রতিক্রিয়া থেকে RL আজকে আমাদের স্থাপন করা ভাষা মডেলগুলিকে সারিবদ্ধ করার জন্য আমাদের প্রধান কৌশল। আমরা নামক মডেলের একটি ক্লাস প্রশিক্ষণ জিপিটি নির্দেশ করুন প্রাক-প্রশিক্ষিত ভাষা মডেল যেমন GPT-3 থেকে প্রাপ্ত। এই মডেলগুলিকে মানুষের অভিপ্রায় অনুসরণ করার জন্য প্রশিক্ষিত করা হয়: একটি নির্দেশ দ্বারা প্রদত্ত স্পষ্ট অভিপ্রায় এবং সেইসাথে সত্যবাদিতা, ন্যায়পরায়ণতা এবং নিরাপত্তার মতো অন্তর্নিহিত অভিপ্রায়।

আমাদের ফলাফলগুলি দেখায় যে সারিবদ্ধকরণ-কেন্দ্রিক সূক্ষ্ম-টিউনিং-এ এই মুহূর্তে অনেক কম-ঝুলে থাকা ফল রয়েছে: InstructGPT 100x বড় পূর্বপ্রশিক্ষিত মডেলের চেয়ে বেশি পছন্দ করে, যখন এর সূক্ষ্ম-টিউনিং খরচ GPT-2-এর প্রাক-প্রশিক্ষণ গণনার <3%। এবং প্রায় 20,000 ঘন্টা মানুষের প্রতিক্রিয়া। আমরা আশা করি যে আমাদের কাজ শিল্পের অন্যদেরকে বৃহৎ ভাষার মডেলগুলির সারিবদ্ধকরণে তাদের বিনিয়োগ বাড়াতে অনুপ্রাণিত করে এবং এটি মোতায়েন করা মডেলগুলির সুরক্ষা সম্পর্কে ব্যবহারকারীদের প্রত্যাশার উপর বাধা বাড়ায়৷

আমাদের প্রাকৃতিক ভাষা API আমাদের সারিবদ্ধকরণ গবেষণার জন্য একটি খুব দরকারী পরিবেশ: এটি আমাদের সারিবদ্ধকরণ কৌশলগুলি আসলে কতটা ভাল কাজ করে সে সম্পর্কে একটি সমৃদ্ধ প্রতিক্রিয়া লুপ প্রদান করে বাস্তব জগতে, আমাদের গ্রাহকরা অর্থ প্রদান করতে ইচ্ছুক যে কাজগুলির একটি খুব বৈচিত্র্যপূর্ণ সেটে ভিত্তি করে। গড়ে, আমাদের গ্রাহকরা ইতিমধ্যেই আমাদের পূর্বপ্রশিক্ষিত মডেলগুলির তুলনায় InstructGPT ব্যবহার করতে পছন্দ করেন।

তবুও InstructGPT-এর আজকের ভার্সন পুরোপুরি সারিবদ্ধ থেকে বেশ দূরে: তারা কখনও কখনও সাধারণ নির্দেশাবলী অনুসরণ করতে ব্যর্থ হয়, সর্বদা সত্যবাদী হয় না, ক্ষতিকারক কাজগুলিকে নির্ভরযোগ্যভাবে অস্বীকার করে না এবং কখনও কখনও পক্ষপাতদুষ্ট বা বিষাক্ত প্রতিক্রিয়া দেয়। কিছু গ্রাহক InstructGPT-এর প্রতিক্রিয়াগুলিকে পূর্বপ্রশিক্ষিত মডেলগুলির তুলনায় উল্লেখযোগ্যভাবে কম সৃজনশীল বলে মনে করেন, যা আমরা সর্বজনীনভাবে উপলব্ধ বেঞ্চমার্কগুলিতে InstructGPT চালানো থেকে উপলব্ধি করতে পারিনি৷ আমরা মানব প্রতিক্রিয়া থেকে RL সম্পর্কে আরও বিশদ বৈজ্ঞানিক বোঝার বিকাশের জন্য কাজ করছি এবং কীভাবে মানুষের প্রতিক্রিয়ার মান উন্নত করা যায়।

আমাদের API সারিবদ্ধ করা AGI সারিবদ্ধ করার চেয়ে অনেক সহজ কারণ আমাদের API-এর বেশিরভাগ কাজগুলি মানুষের পক্ষে তত্ত্বাবধান করা খুব কঠিন নয় এবং আমাদের স্থাপন করা ভাষা মডেলগুলি মানুষের চেয়ে স্মার্ট নয়৷ আমরা AGI সারিবদ্ধ করার জন্য মানুষের প্রতিক্রিয়া থেকে RL আশা করি না, তবে এটি স্কেলযোগ্য প্রান্তিককরণ প্রস্তাবগুলির জন্য একটি মূল বিল্ডিং ব্লক যা আমরা সবচেয়ে বেশি উত্তেজিত, এবং তাই এই পদ্ধতিটি নিখুঁত করা মূল্যবান।

মানুষের মূল্যায়নে সহায়তা করার জন্য প্রশিক্ষণ মডেল

মানুষের প্রতিক্রিয়া থেকে RL এর একটি মৌলিক সীমাবদ্ধতা রয়েছে: এটি অনুমান করে যে মানুষ আমাদের AI সিস্টেমগুলি যে কাজগুলি করছে তা সঠিকভাবে মূল্যায়ন করতে পারে। আজ মানুষ এটিতে বেশ ভাল, কিন্তু মডেলগুলি আরও সক্ষম হওয়ার সাথে সাথে তারা এমন কাজগুলি করতে সক্ষম হবে যা মানুষের পক্ষে মূল্যায়ন করা অনেক কঠিন (যেমন একটি বড় কোডবেস বা একটি বৈজ্ঞানিক কাগজে সমস্ত ত্রুটি খুঁজে পাওয়া)। আমাদের মডেলগুলি আমাদের মানব মূল্যায়নকারীদের সত্য বলার পরিবর্তে তারা কী শুনতে চায় তা বলতে শিখতে পারে। সারিবদ্ধকরণ স্কেল করার জন্য, আমরা এর মতো কৌশলগুলি ব্যবহার করতে চাই রিকার্সিভ রিওয়ার্ড মডেলিং (RRM), বিতর্ক, এবং পুনরাবৃত্ত পরিবর্ধন.

বর্তমানে আমাদের মূল দিকনির্দেশ RRM-এর উপর ভিত্তি করে: আমরা এমন মডেলগুলিকে প্রশিক্ষণ দিই যেগুলি মানুষকে আমাদের মডেলগুলিকে এমন কাজগুলিতে মূল্যায়ন করতে সহায়তা করতে পারে যা মানুষের পক্ষে সরাসরি মূল্যায়ন করা খুব কঠিন। উদাহরণ স্বরূপ:

আমরা একটি মডেল প্রশিক্ষণ বই সংক্ষিপ্ত করা. বইয়ের সারাংশের মূল্যায়ন করা মানুষের জন্য দীর্ঘ সময় নেয় যদি তারা বইটির সাথে অপরিচিত হয়, তবে আমাদের মডেল অধ্যায়ের সারাংশ লিখে মানুষের মূল্যায়নে সহায়তা করতে পারে।
আমরা একটি মডেল প্রশিক্ষণ প্রকৃত নির্ভুলতা মূল্যায়নে মানুষকে সহায়তা করুন ওয়েব ব্রাউজ করে এবং উদ্ধৃতি এবং লিঙ্ক প্রদান করে। সাধারণ প্রশ্নগুলিতে, এই মডেলের আউটপুটগুলি ইতিমধ্যেই মানুষের দ্বারা লিখিত প্রতিক্রিয়াগুলির থেকে পছন্দ করা হয়েছে৷
আমরা একটি মডেল প্রশিক্ষণ তার নিজস্ব আউটপুট সমালোচনামূলক মন্তব্য লিখুন: একটি ক্যোয়ারী-ভিত্তিক সংক্ষিপ্তকরণ টাস্কে, সমালোচনামূলক মন্তব্যের সাহায্যে মানুষ মডেল আউটপুটগুলিতে যে ত্রুটিগুলি খুঁজে পায় তা গড়ে 50% বৃদ্ধি করে৷ আমরা মানুষকে যুক্তিসঙ্গত দেখতে কিন্তু ভুল সারসংক্ষেপ লিখতে বললেও এটি থাকে।
আমরা অসহায় মানুষের জন্য নির্ভরযোগ্যভাবে মূল্যায়ন করা খুবই কঠিন বলে নির্বাচিত কোডিং কাজের একটি সেট তৈরি করছি। আমরা শীঘ্রই এই ডেটা সেট প্রকাশ করার আশা করি।

আমাদের AI সিস্টেমগুলি খুব সৃজনশীল সমাধান প্রস্তাব করলেও আমাদের প্রান্তিককরণ কৌশলগুলিকে কাজ করতে হবে (যেমন আলফাগোর পদক্ষেপ 37), এইভাবে আমরা বিশেষভাবে মানুষকে বিভ্রান্তিকর বা প্রতারণামূলক সমাধান থেকে সঠিক পার্থক্য করতে সহায়তা করার জন্য মডেল প্রশিক্ষণে আগ্রহী। আমরা বিশ্বাস করি যে কীভাবে এআই-সহায়ক মূল্যায়নের কাজটি অনুশীলনে করা যায় সে সম্পর্কে যতটা সম্ভব শেখার সর্বোত্তম উপায় হল এআই সহকারী তৈরি করা।

প্রান্তিককরণ গবেষণা করতে AI সিস্টেমকে প্রশিক্ষণ দেওয়া

বর্তমানে প্রান্তিককরণ সমস্যার কোন অনির্দিষ্টকালের জন্য মাপযোগ্য সমাধান নেই। AI এর অগ্রগতি অব্যাহত থাকায়, আমরা আশা করছি বেশ কিছু নতুন অ্যালাইনমেন্ট সমস্যার সম্মুখীন হতে যা আমরা এখনও বর্তমান সিস্টেমে লক্ষ্য করি না। এই সমস্যাগুলির মধ্যে কিছু আমরা এখন আশা করছি এবং কিছু সম্পূর্ণ নতুন হবে৷

আমরা বিশ্বাস করি যে একটি অনির্দিষ্টকালের জন্য মাপযোগ্য সমাধান খুঁজে পাওয়া সম্ভবত খুব কঠিন। পরিবর্তে, আমরা একটি আরও বাস্তবসম্মত পদ্ধতির জন্য লক্ষ্য রাখি: এমন একটি সিস্টেম তৈরি এবং সারিবদ্ধ করা যা মানুষের চেয়ে দ্রুত এবং ভাল প্রান্তিককরণ গবেষণা অগ্রগতি করতে পারে।

আমরা যখন এটিতে অগ্রগতি করি, আমাদের AI সিস্টেমগুলি আমাদের সারিবদ্ধকরণের কাজগুলিকে আরও বেশি করে নিতে পারে এবং শেষ পর্যন্ত আমাদের এখনকার তুলনায় আরও ভাল সারিবদ্ধকরণ কৌশলগুলি ধারণ করতে, প্রয়োগ করতে, অধ্যয়ন করতে এবং বিকাশ করতে পারে৷ তারা মানুষের সাথে একসাথে কাজ করবে তা নিশ্চিত করার জন্য যে তাদের নিজেদের উত্তরসূরিরা মানুষের সাথে আরও একত্রিত হয়।

আমরা বিশ্বাস করি যে সারিবদ্ধকরণ গবেষণার মূল্যায়ন করা এটি উত্পাদন করার চেয়ে যথেষ্ট সহজ, বিশেষ করে যখন মূল্যায়ন সহায়তা প্রদান করা হয়। তাই মানব গবেষকরা নিজেরাই এই গবেষণা তৈরি করার পরিবর্তে AI সিস্টেমের দ্বারা সম্পাদিত প্রান্তিককরণ গবেষণা পর্যালোচনা করার জন্য তাদের প্রচেষ্টাকে আরও বেশি করে ফোকাস করবেন। আমাদের লক্ষ্য হল মডেলগুলিকে এমনভাবে সারিবদ্ধ করার প্রশিক্ষণ দেওয়া যাতে আমরা প্রান্তিককরণ গবেষণার জন্য প্রয়োজনীয় প্রায় সমস্ত জ্ঞানীয় শ্রমকে অফ-লোড করতে পারি।

গুরুত্বপূর্ণভাবে, আমাদের কেবলমাত্র "সংকীর্ণ" AI সিস্টেমের প্রয়োজন যা প্রাসঙ্গিক ডোমেনে মানব-স্তরের সক্ষমতা রাখে এবং পাশাপাশি সারিবদ্ধকরণ গবেষণায় মানুষের জন্য। আমরা আশা করি যে এই AI সিস্টেমগুলি সাধারণ-উদ্দেশ্যের সিস্টেম বা মানুষের তুলনায় অনেক বেশি স্মার্ট সিস্টেমের তুলনায় সারিবদ্ধ করা সহজ।

ভাষার মডেলগুলি স্বয়ংক্রিয়ভাবে সারিবদ্ধকরণ গবেষণার জন্য বিশেষভাবে উপযুক্ত কারণ তারা ইন্টারনেট পড়ার মাধ্যমে মানবিক মূল্যবোধ সম্পর্কে প্রচুর জ্ঞান এবং তথ্য নিয়ে "প্রিলোডেড" আসে। বাক্সের বাইরে, তারা স্বাধীন এজেন্ট নয় এবং এইভাবে বিশ্বে তাদের নিজস্ব লক্ষ্যগুলি অনুসরণ করে না। প্রান্তিককরণ গবেষণা করতে তাদের ইন্টারনেটে সীমাবদ্ধ অ্যাক্সেসের প্রয়োজন নেই। তবুও অনেকগুলি সারিবদ্ধকরণ গবেষণা কাজগুলিকে প্রাকৃতিক ভাষা বা কোডিং কাজ হিসাবে বর্ণনা করা যেতে পারে।

এর ভবিষ্যত সংস্করণ ওয়েবজিপিটি, জিপিটি নির্দেশ করুন, এবং হস্তলিখিত পুঁথি প্রান্তিককরণ গবেষণা সহকারী হিসাবে একটি ভিত্তি প্রদান করতে পারে, কিন্তু তারা এখনও যথেষ্ট সক্ষম নয়। যদিও আমরা জানি না কখন আমাদের মডেলগুলি সারিবদ্ধকরণ গবেষণায় অর্থপূর্ণভাবে অবদান রাখতে যথেষ্ট সক্ষম হবে, আমরা মনে করি সময়ের আগে শুরু করা গুরুত্বপূর্ণ। একবার আমরা একটি মডেলকে প্রশিক্ষণ দিই যা উপযোগী হতে পারে, আমরা এটিকে বহিরাগত সারিবদ্ধকরণ গবেষণা সম্প্রদায়ের কাছে অ্যাক্সেসযোগ্য করার পরিকল্পনা করি।

সীমাবদ্ধতা

আমরা AGI সারিবদ্ধ করার জন্য এই পদ্ধতির বিষয়ে খুব উত্তেজিত, কিন্তু আমরা আশা করি যে এটিকে মানিয়ে নেওয়া এবং উন্নত করা দরকার কারণ আমরা কীভাবে এআই প্রযুক্তি বিকাশ করে সে সম্পর্কে আরও শিখছি। আমাদের পদ্ধতিরও বেশ কয়েকটি গুরুত্বপূর্ণ সীমাবদ্ধতা রয়েছে:

এখানে যে পথটি দেওয়া হয়েছে তা দৃঢ়তা এবং ব্যাখ্যাযোগ্যতা গবেষণার গুরুত্বকে কম গুরুত্ব দেয়, দুটি ক্ষেত্রে OpenAI বর্তমানে কম বিনিয়োগ করা হয়েছে৷ যদি এটি আপনার প্রোফাইলের সাথে খাপ খায়, তাহলে অনুগ্রহ করে আমাদের গবেষণা বিজ্ঞানী পদের জন্য আবেদন করুন!
মূল্যায়নের জন্য AI সহায়তা ব্যবহার করে AI সহকারীতে উপস্থিত সূক্ষ্ম অসঙ্গতি, পক্ষপাতিত্ব বা দুর্বলতাগুলিকে স্কেল বা প্রসারিত করার সম্ভাবনা রয়েছে।
AGI সারিবদ্ধ করা সম্ভবত আজকের এআই সিস্টেমগুলিকে সারিবদ্ধ করার চেয়ে খুব আলাদা সমস্যা সমাধানের সাথে জড়িত। আমরা আশা করি যে রূপান্তরটি কিছুটা অবিচ্ছিন্ন হবে, কিন্তু যদি বড় ধরনের স্থবিরতা বা দৃষ্টান্ত পরিবর্তন হয়, তাহলে InstructGPT-এর মতো সারিবদ্ধ মডেল থেকে শেখা বেশিরভাগ পাঠ সরাসরি কার্যকর নাও হতে পারে।
প্রান্তিককরণ সমস্যার সবচেয়ে কঠিন অংশগুলি আমাদের এআই সিস্টেমের জন্য একটি মাপযোগ্য এবং সারিবদ্ধ প্রশিক্ষণ সংকেত ইঞ্জিনিয়ারিংয়ের সাথে সম্পর্কিত নাও হতে পারে। এমনকি যদি এটি সত্য হয়, এই ধরনের একটি প্রশিক্ষণ সংকেত প্রয়োজন হবে।
AGI সারিবদ্ধ করার চেয়ে অর্থপূর্ণভাবে সারিবদ্ধকরণ গবেষণাকে ত্বরান্বিত করতে পারে এমন মডেলগুলিকে সারিবদ্ধ করা মৌলিকভাবে সহজ নাও হতে পারে। অন্য কথায়, সারিবদ্ধকরণ গবেষণায় সাহায্য করতে পারে এমন নূন্যতম সক্ষম মডেলগুলি সঠিকভাবে সারিবদ্ধ না হলে ইতিমধ্যেই খুব বিপজ্জনক হতে পারে। যদি এটি সত্য হয়, আমরা সারিবদ্ধকরণ সমস্যা সমাধানের জন্য আমাদের নিজস্ব সিস্টেম থেকে খুব বেশি সাহায্য পাব না।

আমরা গবেষণার এই লাইনের জন্য আরও প্রতিভাবান লোক নিয়োগ করতে চাই! যদি আপনি এটি আগ্রহী, আমরা নিয়োগ করছি গবেষণা প্রকৌশলী এবং গবেষণা বিজ্ঞানীরা!

সময় স্ট্যাম্প: আগস্ট 24, 2022আগস্ট 24, 2022