कैसे विकासवादी चयन अधिक सक्षम आत्म-ड्राइविंग कारों को प्रशिक्षित कर सकता है

स्रोत नोड: 749900

वेमो में विकास

डीपमाइंड और वेमो ने जिस पहले प्रयोग में सहयोग किया, उसमें एक ऐसे नेटवर्क का प्रशिक्षण शामिल था जो हमारे सेंसर द्वारा पहचाने गए पैदल यात्रियों, साइकिल चालकों और मोटरसाइकिल चालकों के आसपास बक्से बनाता है - जिसे "क्षेत्र प्रस्ताव नेटवर्क" नाम दिया गया है। उद्देश्य यह जांच करना था कि क्या पीबीटी दो उपायों के साथ पैदल चलने वालों का पता लगाने के लिए तंत्रिका जाल की क्षमता में सुधार कर सकता है: याद रखें (दृश्य में पैदल चलने वालों की कुल संख्या पर तंत्रिका जाल द्वारा पहचाने गए पैदल यात्रियों का अंश) और सटीकता (पता लगाए गए पैदल यात्रियों का अंश) वास्तव में पैदल यात्री, न कि नकली "झूठी सकारात्मक बातें")। वेमो के वाहन कई न्यूरल नेट और अन्य तरीकों का उपयोग करके इन सड़क उपयोगकर्ताओं का पता लगाते हैं, लेकिन इस प्रयोग का लक्ष्य जनसंख्या-आधारित प्रशिक्षण का उपयोग करके झूठी सकारात्मकता को कम करते हुए 99% से अधिक रिकॉल बनाए रखने के लिए इस एकल न्यूरल नेट को प्रशिक्षित करना था।

इस प्रयोग से हमने बहुत कुछ सीखा. सबसे पहले, हमने पाया कि हमें नेटवर्क के लिए एक यथार्थवादी और मजबूत मूल्यांकन बनाने की आवश्यकता है ताकि हम जान सकें कि वास्तविक दुनिया में विभिन्न स्थितियों में तैनात होने पर तंत्रिका नेटवर्क वास्तव में बेहतर प्रदर्शन करेगा या नहीं। इस मूल्यांकन ने उस प्रतियोगिता का आधार बनाया जो पीबीटी एक विजेता तंत्रिका जाल को दूसरे पर चुनने के लिए नियोजित करता है। यह सुनिश्चित करने के लिए कि तंत्रिका जाल आम तौर पर अच्छा प्रदर्शन करते हैं, और प्रशिक्षण के दौरान देखे गए उदाहरणों के उत्तरों को केवल याद न रखें, हमारा पीबीटी प्रतियोगिता मूल्यांकन उदाहरणों के एक सेट ("सत्यापन सेट") का उपयोग करता है जो प्रशिक्षण में उपयोग किए जाने वाले से अलग है। "प्रशिक्षण सेट।") अंतिम प्रदर्शन को सत्यापित करने के लिए, हम उदाहरणों के तीसरे सेट ("मूल्यांकन सेट") का भी उपयोग करते हैं जिसे तंत्रिका जाल ने प्रशिक्षण या प्रतियोगिता में कभी नहीं देखा है।

दूसरे, हमने सीखा कि लगातार विकासवादी प्रतिस्पर्धा का समर्थन करने के लिए हमें तेजी से मूल्यांकन की आवश्यकता है। प्रशिक्षण के दौरान शोधकर्ता शायद ही कभी अपने मॉडल का मूल्यांकन करते हैं, और जब वे ऐसा करते हैं, तो मूल्यांकन कभी-कभार ही किया जाता है। पीबीटी आवश्यक मॉडलों का मूल्यांकन हर 15 मिनट में किया जाना चाहिए। इसे प्राप्त करने के लिए, हमने सैकड़ों वितरित मशीनों में मूल्यांकन को समानांतर करने के लिए Google के डेटा केंद्रों का लाभ उठाया।

विकासवादी प्रतिस्पर्धा में विविधता की शक्ति

इन प्रयोगों के दौरान, हमने देखा कि पीबीटी की एक ताकत - बेहतर प्रदर्शन करने वाले नेटवर्क की संतानों को अधिक संसाधन आवंटित करना - एक कमजोरी भी हो सकती है, क्योंकि पीबीटी वर्तमान के लिए अनुकूलन करता है और दीर्घकालिक परिणामों पर विचार करने में विफल रहता है। यह एक समस्या हो सकती है क्योंकि यह देर से खिलने वालों को नुकसान पहुंचाता है, इसलिए लंबी अवधि में बेहतर प्रदर्शन करने वाले हाइपरपैरामीटर वाले तंत्रिका जाल को परिपक्व होने और सफल होने का मौका नहीं मिलता है। इससे निपटने का एक तरीका जनसंख्या विविधता को बढ़ाना है, जिसे बड़ी आबादी को प्रशिक्षित करके ही हासिल किया जा सकता है। यदि जनसंख्या काफी बड़ी है, तो देर से खिलने वाले हाइपरपैरामीटर वाले नेटवर्क के जीवित रहने और बाद की पीढ़ियों में शामिल होने की अधिक संभावना है।

इन प्रयोगों में, हम "आला" नामक उप-आबादी बनाकर विविधता बढ़ाने में सक्षम थे, जहां तंत्रिका जालों को केवल अपने स्वयं के उप-समूहों के भीतर प्रतिस्पर्धा करने की इजाजत थी - द्वीपों पर अलग-थलग होने पर प्रजातियां कैसे विकसित होती हैं। हमने "फिटनेस शेयरिंग" नामक तकनीक के माध्यम से विविधता को सीधे पुरस्कृत करने का भी प्रयास किया, जहां हम आबादी के सदस्यों के बीच अंतर को मापते हैं और अधिक अद्वितीय तंत्रिका जाल को प्रतिस्पर्धा में बढ़त देते हैं। अधिक विविधता पीबीटी को एक बड़े हाइपरपैरामीटर स्थान का पता लगाने की अनुमति देती है।

परिणाम

पीबीटी ने मॉडल प्रदर्शन में नाटकीय सुधार को सक्षम किया। उपरोक्त प्रयोग के लिए, हमारे पीबीटी मॉडल उच्च रिकॉल दर को बनाए रखते हुए, हाथ से ट्यून किए गए समकक्ष की तुलना में झूठी सकारात्मकता को 24% तक कम करके उच्च परिशुद्धता प्राप्त करने में सक्षम थे। पीबीटी जैसे विकासवादी तरीकों का एक मुख्य लाभ यह है कि वे मनमाने ढंग से जटिल मेट्रिक्स को अनुकूलित कर सकते हैं। परंपरागत रूप से, तंत्रिका जाल को केवल सरल और सहज हानि कार्यों का उपयोग करके प्रशिक्षित किया जा सकता है, जो कि हम वास्तव में जिस चीज़ की परवाह करते हैं उसके लिए एक प्रॉक्सी के रूप में कार्य करते हैं। पीबीटी ने हमें तंत्रिका जालों के प्रशिक्षण के लिए उपयोग किए जाने वाले अद्यतन नियम से आगे जाने और उन सुविधाओं के लिए अनुकूलन करने वाले अधिक जटिल मेट्रिक्स की ओर जाने में सक्षम बनाया, जिनकी हम परवाह करते हैं, जैसे कि उच्च रिकॉल दरों के तहत सटीकता को अधिकतम करना।

पीबीटी से समय और संसाधनों की भी बचत होती है। पीबीटी-प्रशिक्षित नेट के साथ खोजे गए हाइपरपैरामीटर शेड्यूल ने आधे प्रशिक्षण समय और संसाधनों के साथ वेमो के पिछले नेट से बेहतर प्रदर्शन किया। कुल मिलाकर, पीबीटी बेहतर हाइपरपैरामीटर शेड्यूल को कुशलतापूर्वक खोजने के लिए यादृच्छिक समानांतर खोज द्वारा उपयोग किए जाने वाले आधे कम्प्यूटेशनल संसाधनों का उपयोग करता है। यह शोधकर्ताओं के लिए समय भी बचाता है - पीबीटी को सीधे वेमो के तकनीकी बुनियादी ढांचे में शामिल करके, कंपनी भर के शोधकर्ता एक बटन के क्लिक के साथ इस पद्धति को लागू कर सकते हैं, और अपनी सीखने की दर को समायोजित करने में कम समय खर्च कर सकते हैं। इन प्रयोगों के पूरा होने के बाद से, पीबीटी को कई अलग-अलग वेमो मॉडलों पर लागू किया गया है, और सड़क के लिए अधिक सक्षम वाहन बनाने में मदद करने के लिए बहुत सारे वादे हैं।


योगदानकर्ता: यहां वर्णित कार्य वेमो के यू-सीन चेन और मैथ्यू डेविन और डीपमाइंड के अली रज़ावी, आंग ली, सिबोन ली, ओला स्पायरा, प्रमोद गुप्ता और ओरिओल विनाइल्स के बीच एक शोध सहयोग था। परियोजना के सलाहकारों में डीपमाइंड से मैक्स जेडरबर्ग, वैलेन्टिन डेलिबार्ड, मेयर फोर्टुनाटो और जैक्सन ब्रोशियर शामिल हैं।

स्रोत: https://depmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

समय टिकट:

से अधिक डीप माइंड - नवीनतम पोस्ट