ऑल हेल सिसेरो, द कॉन्करर - एआई डिप्लोमेसी में इंसानों को मात देता है

स्रोत नोड: 1763695

फेसबुक की मूल कंपनी मेटा प्लेटफॉर्म्स इंक ने कहा कि उसने एक एआई बनाया है जो लोकप्रिय रणनीति गेम डिप्लोमेसी के ऑनलाइन संस्करण में मनुष्यों को मात दे सकता है, जहां सात खिलाड़ी एक नक्शे पर टुकड़ों को घुमाकर यूरोप के भौगोलिक नियंत्रण के लिए प्रतिस्पर्धा करते हैं।

Science.com पर प्रकाशित एक पेपर में मेटा ने कहा सिसरो, डिप्लोमेसी में मानव-स्तर के प्रदर्शन को प्राप्त करने वाला पहला एआई एजेंट था, एक ऐसा खेल जिसमें सहयोग और प्रतिस्पर्धा दोनों शामिल हैं जो प्राकृतिक भाषा बातचीत और सात खिलाड़ियों के बीच सामरिक समन्वय पर जोर देता है।

ऑनलाइन डिप्लोमेसी के कुल 40 गुमनाम खेलों में, मेटा ने कहा कि सिसरो ने मानव खिलाड़ियों के औसत स्कोर से दोगुना से अधिक हासिल किया और एक से अधिक गेम खेलने वाले प्रतिभागियों के शीर्ष 10% में स्थान दिया।

अग्रणी प्रौद्योगिकी समूह ने कहा कि यह कृत्रिम बुद्धि के क्षेत्र में अपने रणनीतिक और दीर्घकालिक लक्ष्य का हिस्सा था ताकि ऐसे एजेंटों का निर्माण किया जा सके जो प्राकृतिक भाषा में मनुष्यों के साथ योजना, समन्वय और बातचीत कर सकें।

सिसरो कितना महत्वपूर्ण है?

मेटा का कहना है कि सिसरो काफी महत्वपूर्ण है क्योंकि एआई गैर-प्रतिकूल वातावरण पर निर्भर करता है।

अतीत के विपरीत जहां मल्टी-एजेंट एआई के लिए पूर्व की प्रमुख सफलताएं विशुद्ध रूप से प्रतिकूल वातावरण में रही हैं, जैसे कि शतरंज (2), गो (3), और पोकर (4), जहां संचार का कोई मूल्य नहीं है, सिसरो एक रणनीतिक तर्क इंजन को नियुक्त करता है। और नियंत्रणीय संवाद मॉड्यूल।

इन कारणों से, मेटा का कहना है कि डिप्लोमेसी ने मल्टी-एजेंट लर्निंग के लिए एक चुनौतीपूर्ण बेंचमार्क के रूप में काम किया है।

"सिसरो एक सामरिक तर्क इंजन के साथ एक नियंत्रणीय संवाद मॉड्यूल जोड़ता है। खेल के प्रत्येक बिंदु पर, सिसरो मॉडल करता है कि कैसे अन्य खिलाड़ी खेल की स्थिति और उनकी बातचीत के आधार पर कार्य करने की संभावना रखते हैं," मेटा कहते हैं।

एआई तब योजना बनाता है कि खिलाड़ी अपने पारस्परिक लाभ के लिए कैसे समन्वय कर सकते हैं और इन योजनाओं को प्राकृतिक भाषा संदेशों में मैप कर सकते हैं।

स्वस्थ अविश्वास

सिसरो अन्य खिलाड़ियों के प्रस्तावों पर आँख बंद करके भरोसा करने से बचता है और उन योजनाओं को अस्वीकार करता है जिनका "अनुमानित मूल्य" कम होता है और जो अपने स्वयं के हितों के समानांतर चलती हैं।

इस तथ्य के कारण कि डिप्लोमेसी में संवाद खिलाड़ियों के जोड़े के बीच निजी तौर पर होता है, सिसरो तर्क देता है और विश्लेषण करता है कि भविष्यवाणियां करते समय खिलाड़ियों की पहुंच क्या है।

"उदाहरण के लिए, यदि सिसरो एक विरोधी के खिलाफ एक सहयोगी के साथ एक हमले का समन्वय कर रहा है, तो सिसरो की विरोधी की नीति की भविष्यवाणी को इस तथ्य के लिए जिम्मेदार होना चाहिए कि विरोधी को अभीष्ट समन्वय के बारे में पता नहीं है," मेटा ने कहा।

मेटा का कहना है कि इसने 40 अगस्त से 19 अक्टूबर, 13 के बीच मानव खिलाड़ियों की एक ऑनलाइन लीग में डिप्लोमेसी के 2022 खेलों में गुमनाम रूप से सिसरो में प्रवेश किया।

72 घंटे के खेल के दौरान जिसमें 5,277 संदेश भेजने शामिल थे, सिसरो ने प्रतिभागियों के शीर्ष 10% में स्थान दिया, जिन्होंने एक से अधिक गेम खेले।

मेटा का कहना है कि उसने webDiplomacy.net पर ऑनलाइन खेले गए कूटनीति के 125,261 खेलों से डेटा एकत्र किया। इन खेलों में, कुल 40,408 खेलों में संवाद शामिल थे, जिसमें खिलाड़ियों के बीच कुल 12,901,662 संदेशों का आदान-प्रदान हुआ।

संकेत: "कूटनीति के खेल में रोबोट हर किसी को हरा रहा है" (AI-जनित)।

मेटा नोट्स, इसका नया AI एकदम सही है

सिसरो ने ऐसे संदेश भेजे जिनमें त्रुटियाँ थीं, कभी-कभी अपनी योजनाओं का खंडन किया और रणनीतिक भूलें कीं।

लेकिन मेटा ने जोर देकर कहा कि इंसानों ने फिर भी एआई के साथ अन्य खिलाड़ियों के साथ सहयोग करना चुना, बिना यह महसूस किए कि यह एक बॉट था।

“खेलों में लगभग सभी पूर्व AI सफलताएँ दो-खिलाड़ी शून्य-राशि (2p0s) सेटिंग्स में रही हैं, जिसमें शतरंज, गो, हेड-अप पोकर और स्टारक्राफ्ट शामिल हैं। परिमित 2p0 के खेल में, कुछ सुदृढीकरण सीखने (आरएल) एल्गोरिदम जो खुद के खिलाफ खेलकर सीखते हैं- एक प्रक्रिया जिसे आत्म-खेल के रूप में जाना जाता है- एक ऐसी नीति में अभिसरण करेगा जो संतुलित खेलों में अपेक्षा में नामुमकिन है, "मेटा ने पेपर में जोड़ा। "दूसरे शब्दों में, किसी भी परिमित 2p0s गेम को पर्याप्त गणना और मॉडल क्षमता के साथ स्व-खेल के माध्यम से हल किया जा सकता है।"

हालाँकि, मेटा ने सहयोग से जुड़े खेलों के बारे में कहा, मानव डेटा के बिना सेल्फ-प्ले अब ऐसी नीति खोजने की गारंटी नहीं है जो अनंत गणना और मॉडल क्षमता के साथ भी मनुष्यों के साथ अच्छा प्रदर्शन करती है, क्योंकि सेल्फ-प्ले एजेंट एक ऐसी नीति में परिवर्तित हो सकता है जो मानव मानदंडों और अपेक्षाओं के साथ असंगत।

मेटा ने कहा कि सिसरो बोर्ड और संवाद की स्थिति के आधार पर प्रत्येक खिलाड़ी के लिए संभावित कार्यों की आशा करता है, जिसका उपयोग आरएल-प्रशिक्षित मॉडल का उपयोग करके एक योजना एल्गोरिथ्म के लिए शुरुआती बिंदु के रूप में किया जाता है।

कंपनी का कहना है कि एआई बुद्धिमानी से इरादे और कार्यों का चयन करने के लिए रणनीतिक तर्क मॉड्यूल का उपयोग करता है।

यह मॉड्यूल तब एक नियोजन एल्गोरिदम चलाता है जो खेल की स्थिति और संवाद के आधार पर अन्य सभी खिलाड़ियों की नीतियों की भविष्यवाणी करता है और विभिन्न कार्यों की ताकत और मानव खेलों में उनकी संभावना दोनों के लिए खाता है। इस जानकारी और चर के आधार पर, सिसरो के लिए सर्वोत्तम इष्टतम कार्रवाई की जाती है।

मेटा के संस्थापक और सीईओ मार्क जुकरबर्ग के तहत, कंपनी प्रौद्योगिकी के भविष्य के रूप में देखे जाने वाले तेजी से बढ़ते उद्योग का लाभ उठाने के लिए एआई और मेटावर्स में भारी निवेश कर रही है।

के लिए मेटान्यूज.

समय टिकट:

से अधिक मेटान्यूज