दीप सुदृढीकरण सीखना

स्रोत नोड: 802633

हमने बाद में कई तरीकों से DQN एल्गोरिथ्म में सुधार किया है: आगे स्थिर करना सीख रहा हूँ गतिकी; प्राथमिकता देना पुनरावृत्त अनुभव; सामान्य, योग और फिर से स्केलिंग आउटपुट। इन सुधारों में से कई को एक साथ जोड़कर अटारी गेम में माध्य स्कोर में 300% सुधार हुआ; मानव-स्तरीय प्रदर्शन अब लगभग सभी अटारी खेलों में प्राप्त किया गया है। हम भी एक ट्रेन कर सकते हैं एकल तंत्रिका नेटवर्क के बारे में सीखना कई अटारी खेल। हमने एक व्यापक रूप से वितरित गहरी आरएल प्रणाली भी बनाई है, जिसे जाना जाता है गोरिल्ला, जो परिमाण के एक क्रम से प्रशिक्षण के समय को गति देने के लिए Google क्लाउड प्लेटफ़ॉर्म का उपयोग करता है; इस प्रणाली को Google के भीतर अनुशंसित सिस्टम पर लागू किया गया है।

हालांकि, गहरी आर-नेटवर्क गहरी आरएल समस्या को हल करने का केवल एक तरीका है। हमने हाल ही में अतुल्यकालिक आरएल पर आधारित एक और भी अधिक व्यावहारिक और प्रभावी तरीका पेश किया है। यह दृष्टिकोण मानक सीपीयू की मल्टीथ्रेडिंग क्षमताओं का शोषण करता है। विचार हमारे एजेंट के कई उदाहरणों को समानांतर में निष्पादित करना है, लेकिन एक साझा मॉडल का उपयोग करना है। यह पुनरावृत्ति का अनुभव करने के लिए एक व्यवहार्य विकल्प प्रदान करता है, क्योंकि समानांतरकरण भी डेटा में विविधता और सजावट करता है। हमारे अतुल्यकालिक अभिनेता-आलोचक एल्गोरिथ्म, A3Cक्रियाओं के चयन के लिए एक गहरी नीति नेटवर्क के साथ एक गहन क्यू-नेटवर्क को जोड़ती है। यह DQN के प्रशिक्षण समय के कुछ अंश और गोरिल्ला के संसाधन उपभोग के अंश का उपयोग करते हुए, अत्याधुनिक परिणामों को प्राप्त करता है। उपन्यास दृष्टिकोण का निर्माण करके आंतरिक प्रेरणा और अस्थायी रूप से सार योजना, हमने मोंटेज़ुमा के बदला जैसे सबसे कुख्यात चुनौतीपूर्ण अटारी खेलों में भी सफलता प्राप्त की है।

जबकि अटारी खेल विविधता की एक विस्तृत डिग्री का प्रदर्शन करते हैं, वे 2 डी स्प्राइट-आधारित वीडियो गेम तक सीमित हैं। हमने हाल ही में भूलभुलैया शुरू किया है: 3 डी नेविगेशन और पहेली को सुलझाने के वातावरण का एक चुनौतीपूर्ण सूट। फिर से, एजेंट केवल अपने तत्काल क्षेत्र से पिक्सेल-आधारित इनपुट का अवलोकन करता है, और पुरस्कार की खोज और दोहन के लिए मानचित्र का पता लगाना चाहिए।

स्रोत: https://deepmind.com/blog/article/deep-reinforce-learning

समय टिकट:

से अधिक डीप माइंड - नवीनतम पोस्ट