Procgen और MineRL प्रतियोगिता

स्रोत नोड: 768080

हम यह घोषणा करने के लिए उत्साहित हैं कि OpenAI दो NeurIPS 2020 प्रतियोगिताओं का सह-आयोजन कर रहा है ऐक्रोव्ड, कारनेग मेलन यूनिवर्सिटी, तथा Deepmind, का उपयोग करते हुए प्रोजेन बेंचमार्क और खनिज। हम सुदृढीकरण सीखने पर अनुसंधान के लिए आंतरिक रूप से इन वातावरणों पर बहुत अधिक भरोसा करते हैं, और हम इन चुनौतीपूर्ण प्रतियोगिताओं में समुदाय की प्रगति को देखने के लिए तत्पर हैं।

Procgen प्रतियोगिता

Procgen के लिए साइन अप करें

RSI Procgen प्रतियोगिता सुदृढीकरण सीखने में नमूना दक्षता और सामान्यीकरण में सुधार पर ध्यान केंद्रित करता है। एक निश्चित संख्या में पर्यावरण इंटरैक्शन का उपयोग करके प्रतिभागी एजेंटों के प्रदर्शन को अधिकतम करने का प्रयास करेंगे। पहले से ही सार्वजनिक रूप से जारी किए गए 16 वातावरणों में से प्रत्येक में एजेंटों का मूल्यांकन किया जाएगा प्रोजेन बेंचमार्क, साथ ही विशेष रूप से इस प्रतियोगिता के लिए बनाए गए चार गुप्त परीक्षण वातावरण में। इतने विविध वातावरणों में प्रदर्शन को एकत्रित करके, हम अंतर्निहित एल्गोरिदम का न्याय करने के लिए उच्च गुणवत्ता वाले मैट्रिक्स प्राप्त करते हैं। प्रत्येक दौर के विवरण के बारे में अधिक जानकारी मिल सकती है यहाँ उत्पन्न करें.

चूंकि सभी सामग्री प्रक्रियात्मक रूप से उत्पन्न होती है, प्रत्येक Procgen वातावरण में आंतरिक रूप से पहले कभी नहीं देखी गई स्थितियों को सामान्य करने के लिए एजेंटों की आवश्यकता होती है। इसलिए ये वातावरण कई विविध सेटिंग्स में एक एजेंट की सीखने की क्षमता का एक मजबूत परीक्षण प्रदान करते हैं। इसके अलावा, हमने Procgen वातावरण को तेज और उपयोग करने के लिए सरल बनाया है। सीमित कम्प्यूटेशनल संसाधनों वाले प्रतिभागी आसानी से हमारे आधारभूत परिणामों को पुन: पेश करने और नए प्रयोगों को चलाने में सक्षम होंगे। हम आशा करते हैं कि यह प्रतिभागियों को आरएल में नमूना दक्षता और सामान्यीकरण में सुधार के लिए नए तरीकों पर तेजी से पुनरावृति करने के लिए सशक्त बनाएगा।

MineRL प्रतियोगिता

MineRL के लिए साइन अप करें

हाल ही में, आर्टिफिशियल इंटेलिजेंस की कई सफलताओं, जैसे कि अल्फास्टार, अल्फा गो और हमारे अपने OpenAI पाँच, अनुक्रमिक निर्णय लेने के कार्यों में मानव या सुपर-मानव स्तर के प्रदर्शन को प्राप्त करने के लिए गहन सुदृढीकरण सीखने का उपयोग करें। अत्याधुनिक में ये सुधार अब तक आवश्यक हैं तेजी से बढ़ रहा है गणना और सिम्युलेटर नमूनों की मात्रा, और इसलिए इन प्रणालियों में से कई को सीधे वास्तविक दुनिया की समस्याओं पर लागू करना मुश्किल है जहां पर्यावरण के नमूने महंगे हैं। पर्यावरण नमूना जटिलता को कम करने का एक प्रसिद्ध तरीका मानव व्यवहार और वांछित व्यवहार के प्रदर्शनों का लाभ उठाना है।

MineRL 1 प्रतियोगिता से प्रथम स्थान प्रस्तुत करने का एक लोहा लेने की प्रतियोगिता का प्रतिपादन।

इस दिशा में अनुसंधान को आगे बढ़ाने के लिए, हम सह-आयोजन कर रहे हैं माइनआरएल 2020 प्रतियोगिता जिसका उद्देश्य एल्गोरिदम के विकास को बढ़ावा देना है जो जटिल, पदानुक्रमित और विरल वातावरण को हल करने के लिए आवश्यक नमूनों की संख्या को काफी कम करने के लिए मानव प्रदर्शनों का कुशलता से लाभ उठा सकता है। उस अंत तक, प्रतिभागी उन प्रणालियों को विकसित करने के लिए प्रतिस्पर्धा करेंगे जो एक हीरा प्राप्त कर सकते हैं Minecraft कच्चे पिक्सेल से केवल 8,000,000 नमूनों का उपयोग करके MineRL सिम्युलेटर और एक ही GPU मशीन पर 4 दिनों का प्रशिक्षण। प्रतिभागियों को MineRL-v0 डेटासेट प्रदान किया जाएगा (वेबसाइट , काग़ज़), मानव प्रदर्शनों के 60 मिलियन से अधिक फ़्रेमों का एक बड़े पैमाने पर संग्रह, उन्हें Minecraft सिम्युलेटर के साथ अपने एल्गोरिथ्म के इंटरैक्शन को कम करने के लिए विशेषज्ञ प्रक्षेपवक्र का उपयोग करने में सक्षम बनाता है।

यह प्रतियोगिता एक अनुवर्ती है माइनआरएल 2019 प्रतियोगिता जिसमें शीर्ष टीम के एजेंट करने में सक्षम था एक लोहे का अचार प्राप्त करें (प्रतियोगिता का सबसे बड़ा लक्ष्य) इस बेहद सीमित गणना और सिम्युलेटर-इंटरैक्शन बजट के तहत। परिप्रेक्ष्य में रखें, अत्याधुनिक मानक सुदृढीकरण सीखने की प्रणालियों को एक ही लक्ष्य को प्राप्त करने के लिए बड़े मल्टी-जीपीयू सिस्टम पर लाखों करोड़ों पर्यावरणीय इंटरैक्शन की आवश्यकता होती है। इस साल, हम आशा करते हैं कि प्रतियोगी अत्याधुनिक को और आगे बढ़ाएंगे।

यह गारंटी देने के लिए कि प्रतियोगी वास्तव में नमूना कुशल एल्गोरिदम विकसित करते हैं, MineRL प्रतियोगिता आयोजक शीर्ष टीम के अंतिम दौर के मॉडल को हार्डवेयर, कंप्यूट और सिम्युलेटर-इंटरैक्शन पर सख्त बाधाओं के साथ खरोंच से प्रशिक्षित करते हैं। MineRL 2020 प्रतियोगिता में डोमेन के लिए हाथ इंजीनियरिंग सुविधाओं और समाधानों से बचने के लिए एक उपन्यास उपाय भी है। प्रतियोगिता संरचना पर अधिक विवरण पाया जा सकता है यहाँ उत्पन्न करें.

स्रोत: https://openai.com/blog/procgen-minerl-competitions/

समय टिकट:

से अधिक OpenAI

GPT-4

स्रोत नोड: 2009180
समय टिकट: मार्च 14, 2023