दीप सुदृढीकरण सीखना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

हमने बाद में कई तरीकों से DQN एल्गोरिथ्म में सुधार किया है: आगे स्थिर करना सीख रहा हूँ गतिकी; प्राथमिकता देना पुनरावृत्त अनुभव; सामान्य, योग और फिर से स्केलिंग आउटपुट। इन सुधारों में से कई को एक साथ जोड़कर अटारी गेम में माध्य स्कोर में 300% सुधार हुआ; मानव-स्तरीय प्रदर्शन अब लगभग सभी अटारी खेलों में प्राप्त किया गया है। हम भी एक ट्रेन कर सकते हैं एकल तंत्रिका नेटवर्क के बारे में सीखना कई अटारी खेल। हमने एक व्यापक रूप से वितरित गहरी आरएल प्रणाली भी बनाई है, जिसे जाना जाता है गोरिल्ला, जो परिमाण के एक क्रम से प्रशिक्षण के समय को गति देने के लिए Google क्लाउड प्लेटफ़ॉर्म का उपयोग करता है; इस प्रणाली को Google के भीतर अनुशंसित सिस्टम पर लागू किया गया है।

हालांकि, गहरी आर-नेटवर्क गहरी आरएल समस्या को हल करने का केवल एक तरीका है। हमने हाल ही में अतुल्यकालिक आरएल पर आधारित एक और भी अधिक व्यावहारिक और प्रभावी तरीका पेश किया है। यह दृष्टिकोण मानक सीपीयू की मल्टीथ्रेडिंग क्षमताओं का शोषण करता है। विचार हमारे एजेंट के कई उदाहरणों को समानांतर में निष्पादित करना है, लेकिन एक साझा मॉडल का उपयोग करना है। यह पुनरावृत्ति का अनुभव करने के लिए एक व्यवहार्य विकल्प प्रदान करता है, क्योंकि समानांतरकरण भी डेटा में विविधता और सजावट करता है। हमारे अतुल्यकालिक अभिनेता-आलोचक एल्गोरिथ्म, A3Cक्रियाओं के चयन के लिए एक गहरी नीति नेटवर्क के साथ एक गहन क्यू-नेटवर्क को जोड़ती है। यह DQN के प्रशिक्षण समय के कुछ अंश और गोरिल्ला के संसाधन उपभोग के अंश का उपयोग करते हुए, अत्याधुनिक परिणामों को प्राप्त करता है। उपन्यास दृष्टिकोण का निर्माण करके आंतरिक प्रेरणा और अस्थायी रूप से सार योजना, हमने मोंटेज़ुमा के बदला जैसे सबसे कुख्यात चुनौतीपूर्ण अटारी खेलों में भी सफलता प्राप्त की है।

जबकि अटारी खेल विविधता की एक विस्तृत डिग्री का प्रदर्शन करते हैं, वे 2 डी स्प्राइट-आधारित वीडियो गेम तक सीमित हैं। हमने हाल ही में भूलभुलैया शुरू किया है: 3 डी नेविगेशन और पहेली को सुलझाने के वातावरण का एक चुनौतीपूर्ण सूट। फिर से, एजेंट केवल अपने तत्काल क्षेत्र से पिक्सेल-आधारित इनपुट का अवलोकन करता है, और पुरस्कार की खोज और दोहन के लिए मानचित्र का पता लगाना चाहिए।

स्रोत: https://deepmind.com/blog/article/deep-reinforce-learning

समय टिकट: 16 जून 2016

समय टिकट: मार्च 31, 2020

दीप सुदृढीकरण सीखना

प्लेटो द्वारा पुनर्प्रकाशित

से अधिक डीप माइंड - नवीनतम पोस्ट

नेत्र रोग के उपचार के लिए एक प्रमुख मील का पत्थर

काल्पनिक व्यवहारों का मूल्यांकन करके मानव उद्देश्यों को सीखना

अल्फा के साथ गो के रहस्यों की खोज और चीन के शीर्ष खिलाड़ी

नकली वातावरण में लचीले व्यवहार का निर्माण करना

अमेरिका के वयोवृद्ध मामलों के विभाग के साथ रोगी के बिगड़ने पर शोध

ओपन सोर्सिंग डीपमाइंड लैब

तंत्रिका नेटवर्क में अमूर्त तर्क को मापने

अल्फाफोल्ड: जीव विज्ञान में 50 वर्षीय भव्य चुनौती का हल

सरल वातावरण में AI सुरक्षा समस्याओं को निर्दिष्ट करना

एजेंट57: मानव अटारी बेंचमार्क से बेहतर प्रदर्शन

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा