ডিপমাইন্ডের লেটেস্ট এআই গেম 'স্ট্র্যাটেগো'-এ মানব খেলোয়াড়দের ঠেলে দেয়

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

AI অনিশ্চয়তা ঘৃণা করে। তবুও আমাদের অপ্রত্যাশিত বিশ্বে নেভিগেট করার জন্য, এটিকে অসম্পূর্ণ তথ্য দিয়ে পছন্দ করতে শিখতে হবে—যেমন আমরা প্রতিদিন করি।

ডিপমাইন্ড শুধু একটি ছুরিকাঘাত গ্রহণ এই সমস্যা সমাধানে. কৌশলটি ছিল মানুষের মস্তিষ্কের উপর ভিত্তি করে একটি অ্যালগরিদমিক কৌশলে গেম থিওরিকে অন্তর্ভূক্ত করা যাকে বলা হয় গভীর রিইনফোর্সমেন্ট লার্নিং। ফলাফল, DeepNash, স্ট্র্যাটেগো নামক একটি অত্যন্ত কৌশলগত বোর্ড গেমে মানব বিশেষজ্ঞদের টপকে গেছে। AI এর জন্য একটি কুখ্যাতভাবে কঠিন গেম, স্ট্র্যাটেগোর জন্য মানুষের বুদ্ধির একাধিক শক্তি প্রয়োজন: দীর্ঘমেয়াদী চিন্তাভাবনা, ব্লাফিং এবং কৌশলীকরণ, সবকিছুই বোর্ডে আপনার প্রতিপক্ষের টুকরো না জেনে।

"দাবা এবং গো থেকে ভিন্ন, স্ট্র্যাটেগো হল অপূর্ণ তথ্যের একটি খেলা: খেলোয়াড়রা তাদের প্রতিপক্ষের টুকরাগুলির পরিচয় সরাসরি পর্যবেক্ষণ করতে পারে না," DeepMind লিখেছেন একটি ব্লগ পোস্টে DeepNash-এর সাথে, "গেম-প্লেয়িং কৃত্রিম বুদ্ধিমত্তা (AI) সিস্টেমগুলি একটি নতুন সীমান্তে অগ্রসর হয়েছে।"

এটি সব মজা এবং গেম নয়। এআই সিস্টেমগুলি যেগুলি সহজেই আমাদের বিশ্বের এলোমেলোতাকে চালিত করতে পারে এবং সেই অনুযায়ী তাদের "আচরণ" সামঞ্জস্য করতে পারে সেগুলি একদিন সীমিত তথ্যের সাথে বাস্তব-বিশ্বের সমস্যাগুলি পরিচালনা করতে পারে, যেমন ভ্রমণের সময় কমাতে ট্রাফিক প্রবাহকে অনুকূল করা এবং (আশা করি) স্ব-ড্রাইভিং হিসাবে রাস্তার রাগ নিবারণ করা গাড়ি আরও উপস্থিত হয়ে ওঠে।

"আপনি যদি একটি স্ব-ড্রাইভিং গাড়ি তৈরি করেন, তাহলে আপনি অনুমান করতে চান না যে রাস্তায় অন্যান্য সমস্ত চালক পুরোপুরি যুক্তিবাদী এবং সর্বোত্তম আচরণ করবে," বলেছেন মেটা এআই-এর ড. নোয়াম ব্রাউন, যিনি গবেষণায় জড়িত ছিলেন না।

DeepNash-এর বিজয় এই মাসে আরও একটি AI অগ্রিমের হিল নিয়ে আসে, যেখানে একটি অ্যালগরিদম কূটনীতি খেলতে শিখেছে—একটি খেলা যা জয়ের জন্য আলোচনা এবং সহযোগিতার প্রয়োজন। যেহেতু AI আরও নমনীয় যুক্তি লাভ করে, আরও সাধারণ হয়ে ওঠে এবং সামাজিক পরিস্থিতিতে নেভিগেট করতে শেখে, এটি আমাদের নিজস্ব মস্তিষ্কের স্নায়ু প্রক্রিয়া এবং জ্ঞানের মধ্যে অন্তর্দৃষ্টিও সৃষ্টি করতে পারে।

কৌশলের সাথে দেখা করুন

জটিলতার পরিপ্রেক্ষিতে, স্ট্র্যাটেগো হল দাবা, গো বা পোকারের তুলনায় সম্পূর্ণ ভিন্ন একটি প্রাণী—সমস্ত গেম যা AI আগে আয়ত্ত করেছে।

খেলা মূলত পতাকা ক্যাপচার হয়. প্রতিটি পাশে 40 টি টুকরা আছে তারা বোর্ডে যে কোন অবস্থানে রাখতে পারে। প্রতিটি অংশের একটি আলাদা নাম এবং সংখ্যাসূচক পদ আছে, যেমন "মার্শাল", "সাধারণ," "স্কাউট" বা "গুপ্তচর।" উচ্চ র‌্যাঙ্কিং-এর টুকরোগুলো নিচের অংশগুলো ক্যাপচার করতে পারে। লক্ষ্য বিরোধীদের নির্মূল করা এবং তাদের পতাকা দখল করা।

কৌশলটি AI এর জন্য বিশেষভাবে চ্যালেঞ্জিং কারণ খেলোয়াড়রা তাদের প্রতিপক্ষের টুকরাগুলির অবস্থান দেখতে পারে না, উভয়ই প্রাথমিক সেটআপের সময় এবং গেমপ্লে জুড়ে। দাবা বা গো এর বিপরীতে, যেখানে প্রতিটি অংশ এবং আন্দোলন দেখা যায়, স্ট্র্যাটেগো হল সীমিত তথ্য সহ একটি খেলা। লেখকরা ব্যাখ্যা করেছেন যে কোনো সিদ্ধান্ত নেওয়ার সময় খেলোয়াড়দের অবশ্যই "সমস্ত সম্ভাব্য ফলাফলের ভারসাম্য" রাখতে হবে।

অনিশ্চয়তার এই স্তরটি আংশিকভাবে কেন স্ট্র্যাটেগো যুগ যুগ ধরে এআইকে স্টাম্প করেছে। এমনকি সবচেয়ে সফল গেম-প্লে অ্যালগরিদম, যেমন AlphaGo এবং আলফাজিরো, সম্পূর্ণ তথ্যের উপর নির্ভর করুন। Stratego, বিপরীতে, একটি স্পর্শ আছে টেক্সাস হোল্ডেম, একটি জুজু গেম ডিপমাইন্ড পূর্বে একটি অ্যালগরিদম দিয়ে জয় করেছিল৷ কিন্তু স্ট্র্যাটেগোর জন্য সেই কৌশলটি ব্যর্থ হয়েছে, মূলত গেমের দৈর্ঘ্যের কারণে, যা জুজু থেকে ভিন্ন, সাধারণত শত শত চালকে অন্তর্ভুক্ত করে।

সম্ভাব্য গেম খেলার সংখ্যা মন ফুঁকছে। দাবা শুরুর একটি অবস্থান আছে। স্ট্র্যাটেগো 10 টিরও বেশি⁶⁶ সম্ভাব্য প্রারম্ভিক অবস্থান - মহাবিশ্বের সমস্ত নক্ষত্রের চেয়ে অনেক বেশি। স্ট্র্যাটেগোর গেম ট্রি, গেমের সমস্ত সম্ভাব্য চালের সমষ্টি, মোট 10⁵³⁵.

"স্ট্র্যাটেগোতে সম্ভাব্য ফলাফলের সংখ্যার নিছক জটিলতার অর্থ হল অ্যালগরিদম যা নিখুঁত-তথ্যযুক্ত গেমগুলিতে ভাল পারফর্ম করে, এবং এমনকি যেগুলি পোকারের জন্য কাজ করে, কাজ করে না," বলেছেন ডিপমাইন্ডে অধ্যয়নের লেখক ড. জুলিয়েন পেরোলাট। চ্যালেঞ্জ হল "কি আমাদের উত্তেজিত," তিনি বলেন.

একটি সুন্দর মন

স্ট্র্যাটেগোর জটিলতার মানে হল যে গেমপ্লে চালগুলি অনুসন্ধানের জন্য স্বাভাবিক কৌশলটি প্রশ্নের বাইরে। মন্টে কার্লো ট্রি অনুসন্ধানকে ডাব করা হয়েছে, একটি "এআই-ভিত্তিক গেমিংয়ের অটল পন্থা," এই কৌশলটি সম্ভাব্য রুটগুলিকে প্লট করে — যেমন গাছের ডালগুলি — যার ফলে বিজয় হতে পারে৷

পরিবর্তে, ডিপনাশের জন্য ম্যাজিক টাচ এসেছে গণিতবিদ জন ন্যাশের কাছ থেকে, যা ছবিতে চিত্রিত হয়েছে একটি সুন্দর মন. গেম থিওরিতে একজন অগ্রগামী, ন্যাশ তার কাজের জন্য নোবেল পুরস্কার জিতেছেন ন্যাশ ভারসাম্য. সহজ কথায়, প্রতিটি খেলায়, খেলোয়াড়রা প্রত্যেকের দ্বারা অনুসরণ করা কৌশলগুলির একটি সেটে ট্যাপ করতে পারে, যাতে কোনও একক খেলোয়াড় তাদের নিজস্ব কৌশল পরিবর্তন করে কিছু লাভ করতে না পারে। স্টেটগোতে, এটি একটি শূন্য-সমষ্টির খেলা নিয়ে আসে: একজন খেলোয়াড়ের যেকোনো লাভ তাদের প্রতিপক্ষের জন্য ক্ষতির কারণ হয়।

স্ট্র্যাটেগোর জটিলতার কারণে, DeepNash তাদের অ্যালগরিদমের জন্য একটি মডেল-মুক্ত পদ্ধতি গ্রহণ করেছে। এখানে, AI তার প্রতিপক্ষের আচরণকে সুনির্দিষ্টভাবে মডেল করার চেষ্টা করছে না। একটি শিশুর মত, এটি একটি ফাঁকা স্লেট আছে, ধরনের, শেখার জন্য. এই সেট-আপটি গেমপ্লের প্রাথমিক পর্যায়ে বিশেষভাবে উপযোগী, "যখন DeepNash তার প্রতিপক্ষের টুকরো সম্পর্কে খুব কমই জানে", ভবিষ্যদ্বাণী করে "কঠিন, যদি অসম্ভব না হয়," লেখক বলেছেন।

গেমের ন্যাশ ভারসাম্য খুঁজে বের করার লক্ষ্যে দলটি তখন DeepNash কে শক্তিশালী করার জন্য গভীর শক্তিবৃদ্ধি শিক্ষা ব্যবহার করে। এটি স্বর্গে তৈরি একটি ম্যাচ: শক্তিবৃদ্ধি শিক্ষা গেমের প্রতিটি ধাপে সেরা পরবর্তী পদক্ষেপের সিদ্ধান্ত নিতে সাহায্য করে, যখন DeepNash একটি সামগ্রিক শিক্ষার কৌশল প্রদান করে। সিস্টেমটি মূল্যায়ন করার জন্য, দলটি একটি "শিক্ষক" প্রকৌশলী করেছে যাতে গেমের জ্ঞান ব্যবহার করে স্পষ্ট ভুলগুলি ফিল্টার করা যায় যা সম্ভবত বাস্তব-বিশ্বের অর্থে পরিণত হবে না।

অনুশীলন সাফল্যর চাবিকাটি

শেখার প্রথম ধাপ হিসেবে, DeepNash 5.5 বিলিয়ন গেমে নিজের বিরুদ্ধে খেলেছে, এআই প্রশিক্ষণের একটি জনপ্রিয় পদ্ধতি যার নাম স্ব-প্লে।

যখন এক পক্ষ জয়ী হয়, তখন AI পুরস্কৃত হয় এবং এর বর্তমান কৃত্রিম নিউরাল নেটওয়ার্ক প্যারামিটারগুলিকে শক্তিশালী করা হয়। অন্য দিকটি-একই AI-এর নিউরাল নেটওয়ার্ক শক্তি কমানোর জন্য একটি জরিমানা পায়। এটি একটি আয়নার সামনে নিজেকে একটি বক্তৃতা মহড়ার মত। সময়ের সাথে সাথে, আপনি ভুলগুলি খুঁজে বের করেন এবং আরও ভাল কাজ করেন। DeepNash এর ক্ষেত্রে, এটি সেরা গেমপ্লের জন্য একটি ন্যাশ ভারসাম্যের দিকে প্রবাহিত হয়।

প্রকৃত কর্মক্ষমতা সম্পর্কে কি?

দলটি অন্যান্য অভিজাত স্ট্র্যাটেগো বটের বিরুদ্ধে অ্যালগরিদম পরীক্ষা করেছে, যার মধ্যে কয়েকটি কম্পিউটার স্ট্র্যাটেগো ওয়ার্ল্ড চ্যাম্পিয়নশিপ জিতেছে। ডিপন্যাশ প্রায় 97 শতাংশ জয়ের হার নিয়ে প্রতিপক্ষকে পরাজিত করেছে। মানব খেলোয়াড়দের জন্য একটি অনলাইন প্ল্যাটফর্ম - গ্র্যাভনের বিরুদ্ধে প্রকাশ করার সময় ডিপন্যাশ তার মানব প্রতিপক্ষকে পরাজিত করেছিল। এই বছরের এপ্রিলে গ্র্যাভনের খেলোয়াড়দের বিরুদ্ধে দুই সপ্তাহের বেশি ম্যাচের পর, 2002 সাল থেকে ডিপন্যাশ সমস্ত র‌্যাঙ্কিং ম্যাচে তৃতীয় স্থানে উঠে এসেছে।

এটি দেখায় যে AI-তে মানুষের খেলার ডেটা বুটস্ট্র্যাপ করা DeepNash-এর জন্য মানব-স্তরের পারফরম্যান্সে পৌঁছানোর প্রয়োজন নেই—এবং এটিকে হারাতে হবে।

এআই প্রাথমিক সেটআপের সাথে এবং গেমপ্লে চলাকালীন কিছু কৌতুকপূর্ণ আচরণও প্রদর্শন করেছে। উদাহরণস্বরূপ, একটি নির্দিষ্ট "অপ্টিমাইজড" শুরুর অবস্থানে স্থির হওয়ার পরিবর্তে, ডিপন্যাশ তার প্রতিপক্ষকে সময়ের সাথে নিদর্শনগুলি খুঁজে পাওয়া থেকে বিরত রাখতে ক্রমাগত টুকরোগুলিকে চারপাশে স্থানান্তরিত করেছে। গেমপ্লে চলাকালীন, AI আপাতদৃষ্টিতে বুদ্ধিহীন পদক্ষেপের মধ্যে বাউন্স করে—যেমন উচ্চ-র‌্যাঙ্কিং-এর টুকরাগুলিকে বলিদান—পাল্টা আক্রমণে প্রতিপক্ষের এমনকি উচ্চ-র‌্যাঙ্কিং-এর অংশগুলিকে খুঁজে বের করার জন্য।

DeepNash এছাড়াও ব্লাফ করতে পারেন. একটি নাটকে, AI একটি নিম্ন-র্যাঙ্কিং অংশটিকে এমনভাবে সরিয়ে দিয়েছে যেন এটি একটি উচ্চ-র্যাঙ্কিং, মানব প্রতিপক্ষকে তার উচ্চ-র্যাঙ্কিং কর্নেলের সাথে টুকরোটির পিছনে তাড়া করার জন্য প্রলুব্ধ করে। এআই প্যানটিকে উৎসর্গ করেছিল, কিন্তু পরিবর্তে, প্রতিপক্ষের মূল্যবান গুপ্তচর অংশটিকে একটি অ্যামবুশে পরিণত করেছিল।

যদিও DeepNash স্ট্র্যাটেগোর জন্য তৈরি করা হয়েছিল, এটি বাস্তব জগতের জন্য সাধারণীকরণযোগ্য। মূল পদ্ধতিটি সীমিত তথ্য ব্যবহার করে আমাদের অপ্রত্যাশিত ভবিষ্যৎকে আরও ভালোভাবে মোকাবেলা করার জন্য AI-কে নির্দেশ দিতে পারে- ভিড় এবং ট্রাফিক নিয়ন্ত্রণ থেকে শুরু করে বাজারের অশান্তি বিশ্লেষণ করা।

"একটি সাধারণীকরণযোগ্য AI সিস্টেম তৈরি করতে যা অনিশ্চয়তার মুখে শক্তিশালী, আমরা AI এর সমস্যা সমাধানের ক্ষমতাগুলিকে আমাদের সহজাতভাবে অনির্দেশ্য বিশ্বে আরও আনতে আশা করি," দলটি বলেছে।

চিত্র ক্রেডিট: ডেরেক ব্রাফ/ফ্লিকার

সময় স্ট্যাম্প: ডিসেম্বর 5, 2022ডিসেম্বর 5, 2022