چگونه انتخاب تکاملی می تواند ماشین های خودران با توانایی بیشتری را آموزش دهد

گره منبع: 749900

تکامل در Waymo

اولین آزمایش‌هایی که DeepMind و Waymo روی آن همکاری کردند، شامل آموزش شبکه‌ای بود که جعبه‌هایی را در اطراف عابران پیاده، دوچرخه‌سواران و موتورسوارانی که توسط حسگرهای ما شناسایی می‌شد تولید می‌کرد – به نام «شبکه پیشنهاد منطقه». هدف این بود که بررسی شود آیا PBT می‌تواند توانایی شبکه عصبی برای تشخیص عابران پیاده را با دو معیار بهبود بخشد: یادآوری (کسری از عابران پیاده شناسایی‌شده توسط شبکه عصبی نسبت به تعداد کل عابران پیاده در صحنه) و دقت (کسری از عابران پیاده شناسایی‌شده که هستند. در واقع عابران پیاده، و نه "اثبات غلط" جعلی). وسایل نقلیه Waymo این کاربران جاده را با استفاده از شبکه‌های عصبی متعدد و روش‌های دیگر شناسایی می‌کنند، اما هدف از این آزمایش آموزش این شبکه عصبی منفرد برای حفظ یادآوری بیش از 99٪ بود، در حالی که با استفاده از آموزش مبتنی بر جمعیت، موارد مثبت کاذب را کاهش داد.

ما از این آزمایش چیزهای زیادی یاد گرفتیم. اولاً، ما متوجه شدیم که باید یک ارزیابی واقعی و قوی برای شبکه‌ها ایجاد کنیم تا بدانیم که آیا یک شبکه عصبی در موقعیت‌های مختلف در دنیای واقعی واقعاً بهتر عمل می‌کند یا خیر. این ارزیابی اساس رقابتی را تشکیل داد که PBT برای انتخاب یک شبکه عصبی برنده بر دیگری به کار می گیرد. برای اطمینان از عملکرد خوب شبکه های عصبی به طور کلی، و نه صرفاً به خاطر سپردن پاسخ به مثال هایی که در طول آموزش دیده اند، ارزیابی مسابقه PBT ما از مجموعه ای از مثال ها ("مجموعه اعتبار سنجی") استفاده می کند که با نمونه های استفاده شده در آموزش متفاوت است ( "مجموعه تمرین.") برای تأیید عملکرد نهایی، از مجموعه سومی از مثال ها ("مجموعه ارزیابی") استفاده می کنیم که شبکه های عصبی هرگز در تمرین یا مسابقه ندیده اند.

ثانیاً، ما یاد گرفتیم که برای حمایت از رقابت مکرر تکاملی به ارزیابی سریع نیاز داریم. محققان به ندرت مدل های خود را در طول آموزش ارزیابی می کنند و زمانی که این کار را انجام می دهند، ارزیابی به ندرت انجام می شود. مدل های مورد نیاز PBT هر 15 دقیقه ارزیابی می شوند. برای رسیدن به این هدف، ما از مراکز داده Google برای موازی کردن ارزیابی در بین صدها ماشین توزیع شده استفاده کردیم.

قدرت تنوع در رقابت تکاملی

در طول این آزمایش‌ها، ما متوجه شدیم که یکی از نقاط قوت PBT - تخصیص منابع بیشتر به نسل شبکه‌های با عملکرد بهتر - نیز می‌تواند یک ضعف باشد، زیرا PBT برای زمان حال بهینه‌سازی می‌شود و نتایج بلندمدت را در نظر نمی‌گیرد. این می‌تواند مشکل‌ساز باشد، زیرا به دیرشکوفه‌ها ضرر می‌زند، بنابراین شبکه‌های عصبی با فراپارامترهایی که در درازمدت بهتر عمل می‌کنند، شانس بلوغ و موفقیت را ندارند. یکی از راه های مبارزه با این امر افزایش تنوع جمعیتی است که می توان به سادگی با آموزش جمعیت بزرگتر به آن دست یافت. اگر جمعیت به اندازه کافی بزرگ باشد، شانس بیشتری برای بقای شبکه‌هایی با ابرپارامترهای دیرشکفته و رسیدن به نسل‌های بعدی وجود دارد.

در این آزمایش‌ها، ما توانستیم با ایجاد زیرجمعیت‌هایی به نام «نیچ»، تنوع را افزایش دهیم، که در آن شبکه‌های عصبی فقط مجاز به رقابت در درون گروه‌های فرعی خودشان بودند – مشابه نحوه تکامل گونه‌ها در جدا شدن در جزایر. ما همچنین سعی کردیم به طور مستقیم از طریق تکنیکی به نام "اشتراک گذاری تناسب اندام" به تنوع پاداش دهیم، که در آن تفاوت بین اعضای جمعیت را اندازه گیری می کنیم و به شبکه های عصبی منحصر به فرد بیشتری در رقابت برتری می دهیم. تنوع بیشتر به PBT اجازه می دهد تا فضای فراپارامتری بزرگتری را کشف کند.

نتایج

PBT باعث بهبود چشمگیر عملکرد مدل شد. برای آزمایش فوق، مدل‌های PBT ما توانستند با کاهش 24 درصد موارد مثبت کاذب در مقایسه با معادل تنظیم‌شده دستی، دقت بالاتری را به دست آورند، در حالی که نرخ فراخوانی بالایی را حفظ کردند. مزیت اصلی روش های تکاملی مانند PBT این است که می توانند معیارهای پیچیده دلخواه را بهینه کنند. به طور سنتی، شبکه های عصبی را می توان تنها با استفاده از توابع از دست دادن ساده و روان، که به عنوان یک پروکسی برای آنچه ما واقعاً به آن اهمیت می دهیم، آموزش داد. PBT ما را قادر ساخت تا فراتر از قانون به‌روزرسانی که برای آموزش شبکه‌های عصبی استفاده می‌شود، برویم و به سمت معیارهای پیچیده‌تر بهینه‌سازی برای ویژگی‌هایی که به آن‌ها اهمیت می‌دهیم، مانند حداکثر کردن دقت در نرخ‌های فراخوان بالا برویم.

PBT همچنین در زمان و منابع صرفه جویی می کند. برنامه هایپرپارامتر کشف شده با شبکه های آموزش دیده با PBT با نصف زمان و منابع آموزشی از شبکه قبلی Waymo بهتر عمل کرد. به طور کلی، PBT از نیمی از منابع محاسباتی استفاده شده توسط جستجوی موازی تصادفی استفاده می کند تا به طور موثر برنامه های هایپرپارامتری بهتر را کشف کند. همچنین باعث صرفه جویی در وقت محققان می شود – با گنجاندن PBT مستقیماً در زیرساخت فنی Waymo، محققان از سراسر شرکت می توانند این روش را با کلیک یک دکمه اعمال کنند و زمان کمتری را صرف تنظیم نرخ یادگیری خود کنند. از زمان تکمیل این آزمایش‌ها، PBT در بسیاری از مدل‌های مختلف Waymo اعمال شده است و نوید زیادی برای کمک به ایجاد وسایل نقلیه توانمندتر برای جاده‌ها دارد.


مشارکت کنندگان: کار توضیح داده شده در اینجا یک همکاری تحقیقاتی بین Yu-hsin Chen و Matthieu Devin از Waymo، و علی رضوی، Ang Li، Sibon Li، Ola Spyra، Pramod Gupta و Oriol Vinyals از DeepMind بود. مشاوران این پروژه عبارتند از مکس جادربرگ، والنتین دالیبارد، مایر فورتوناتو و جکسون بروشیر از DeepMind.

منبع: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

تمبر زمان:

بیشتر از Deep Mind - آخرین پست