كيف يمكن للاختيار التطوري أن يدرب سيارات أكثر قدرة على القيادة الذاتية

عقدة المصدر: 749900

التطور في وايمو

تضمنت التجارب الأولى التي تعاونت شركتا DeepMind و Waymo فيها تدريب شبكة تنشئ صناديق حول المشاة وراكبي الدراجات وراكبي الدراجات النارية التي اكتشفتها أجهزة الاستشعار الخاصة بنا - والتي تسمى "شبكة مقترحات المنطقة". كان الهدف هو معرفة ما إذا كان يمكن لـ PBT تحسين قدرة الشبكة العصبية على اكتشاف المشاة على طول مقياسين: الاسترجاع (جزء المشاة الذي تم تحديده بواسطة الشبكة العصبية على إجمالي عدد المشاة في المشهد) والدقة (جزء المشاة الذين تم اكتشافهم). المشاة في الواقع ، وليس "ايجابيات كاذبة" زائفة). تكتشف مركبات Waymo مستخدمي الطريق هؤلاء باستخدام شبكات عصبية متعددة وطرق أخرى ، لكن الهدف من هذه التجربة كان تدريب هذه الشبكة العصبية الفردية للحفاظ على نسبة الاسترجاع أكثر من 99٪ ، مع تقليل الإيجابيات الخاطئة باستخدام التدريب القائم على السكان.

لقد تعلمنا الكثير من هذه التجربة. أولاً ، اكتشفنا أننا بحاجة إلى إنشاء تقييم واقعي وقوي للشبكات حتى نعرف ما إذا كانت الشبكة العصبية ستؤدي حقًا بشكل أفضل عند نشرها عبر مجموعة متنوعة من المواقف في العالم الحقيقي. شكل هذا التقييم أساس المنافسة التي توظفها PBT لاختيار شبكة عصبية فائزة على أخرى. لضمان أداء الشبكات العصبية جيدًا بشكل عام ، وعدم حفظ الإجابات على الأمثلة التي رأوها أثناء التدريب ، يستخدم تقييم مسابقة PBT مجموعة من الأمثلة ("مجموعة التحقق من الصحة") التي تختلف عن تلك المستخدمة في التدريب ( "مجموعة التدريب".) للتحقق من الأداء النهائي ، نستخدم أيضًا مجموعة ثالثة من الأمثلة ("مجموعة التقييم") التي لم تراها الشبكات العصبية في التدريب أو المنافسة.

ثانيًا ، علمنا أننا بحاجة إلى تقييم سريع لدعم المنافسة التطورية المتكررة. نادرًا ما يقوم الباحثون بتقييم نماذجهم أثناء التدريب ، وعندما يفعلون ذلك ، يتم التقييم بشكل غير منتظم. يتم تقييم نماذج PBT المطلوبة كل 15 دقيقة. لتحقيق ذلك ، استفدنا من مراكز بيانات Google لموازنة التقييم عبر مئات الأجهزة الموزعة.

قوة التنوع في المنافسة التطورية

خلال هذه التجارب ، لاحظنا أن إحدى نقاط القوة في PBT - تخصيص المزيد من الموارد لنسل من الشبكات ذات الأداء الأفضل - يمكن أن تكون أيضًا نقطة ضعف ، لأن PBT تعمل على التحسين في الوقت الحاضر وتفشل في النظر في النتائج طويلة الأجل. يمكن أن تكون هذه مشكلة لأنها تضر بالأشخاص المتأخرين ، لذا فإن الشبكات العصبية ذات المعلمات الفائقة التي تعمل بشكل أفضل على المدى الطويل لا تتاح لها الفرصة للنضج والنجاح. تتمثل إحدى طرق مكافحة ذلك في زيادة التنوع السكاني ، والذي يمكن تحقيقه ببساطة عن طريق تدريب عدد أكبر من السكان. إذا كان عدد السكان كبيرًا بدرجة كافية ، فهناك فرصة أكبر للشبكات ذات المعلمات الفائقة المتأخرة للبقاء على قيد الحياة واللحاق بها في الأجيال اللاحقة.

في هذه التجارب ، تمكنا من زيادة التنوع من خلال إنشاء مجموعات فرعية تسمى "المنافذ" ، حيث لم يُسمح للشبكات العصبية إلا بالتنافس داخل مجموعاتها الفرعية - على غرار كيفية تطور الأنواع عند عزلها على الجزر. حاولنا أيضًا مكافأة التنوع بشكل مباشر من خلال تقنية تسمى "مشاركة اللياقة" ، حيث نقيس الفرق بين أفراد المجتمع ونمنح شبكات عصبية أكثر تميزًا ميزة في المنافسة. يسمح التنوع الأكبر لـ PBT باستكشاف مساحة أكبر للمعلمات الفائقة.

النتائج

أتاحت PBT تحسينات كبيرة في أداء النموذج. بالنسبة للتجربة أعلاه ، تمكنت نماذج PBT الخاصة بنا من تحقيق دقة أعلى من خلال تقليل الإيجابيات الخاطئة بنسبة 24٪ مقارنةً بالمكافئ المضبوط يدويًا ، مع الحفاظ على معدل استدعاء مرتفع. تتمثل الميزة الرئيسية للطرق التطورية مثل PBT في قدرتها على تحسين المقاييس المعقدة بشكل تعسفي. تقليديا ، لا يمكن تدريب الشبكات العصبية إلا باستخدام وظائف فقدان بسيطة وسلسة ، والتي تعمل بمثابة وكيل لما نهتم به حقًا. مكّننا PBT من تجاوز قاعدة التحديث المستخدمة لتدريب الشبكات العصبية ، ونحو المقاييس الأكثر تعقيدًا التي تعمل على تحسين الميزات التي نهتم بها ، مثل زيادة الدقة في ظل معدلات الاستدعاء العالية.

يوفر PBT أيضًا الوقت والموارد. تفوق الجدول الزمني للمعلمات الفائقة الذي تم اكتشافه باستخدام شبكات PBT المدربة على شبكة Waymo السابقة بنصف وقت التدريب والموارد. بشكل عام ، يستخدم PBT نصف الموارد الحسابية التي يستخدمها البحث المتوازي العشوائي لاكتشاف جداول بارامترات أفضل بكفاءة. كما أنه يوفر الوقت للباحثين - من خلال دمج PBT مباشرةً في البنية التحتية التقنية لـ Waymo ، يمكن للباحثين من جميع أنحاء الشركة تطبيق هذه الطريقة بنقرة زر واحدة ، وقضاء وقت أقل في ضبط معدلات التعلم الخاصة بهم. منذ الانتهاء من هذه التجارب ، تم تطبيق PBT على العديد من طرازات Waymo المختلفة ، وهو يحمل الكثير من الوعود للمساعدة في إنشاء مركبات أكثر قدرة على الطريق.


المساهمون: كان العمل الموصوف هنا عبارة عن تعاون بحثي بين Yu-hsin Chen و Matthieu Devin من Waymo ، و Ali Razavi و Ang Li و Sibon Li و Ola Spyra و Pramod Gupta و Oriol Vinyals of DeepMind. ومن بين مستشاري المشروع ماكس جادربرج وفالنتين داليبارد وماير فورتوناتو وجاكسون بروشير من شركة ديب مايند.

المصدر: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

الطابع الزمني:

اكثر من ديب مايند - آخر مشاركة