تکامل در Waymo
اولین آزمایشهایی که DeepMind و Waymo روی آن همکاری کردند، شامل آموزش شبکهای بود که جعبههایی را در اطراف عابران پیاده، دوچرخهسواران و موتورسوارانی که توسط حسگرهای ما شناسایی میشد تولید میکرد – به نام «شبکه پیشنهاد منطقه». هدف این بود که بررسی شود آیا PBT میتواند توانایی شبکه عصبی برای تشخیص عابران پیاده را با دو معیار بهبود بخشد: یادآوری (کسری از عابران پیاده شناساییشده توسط شبکه عصبی نسبت به تعداد کل عابران پیاده در صحنه) و دقت (کسری از عابران پیاده شناساییشده که هستند. در واقع عابران پیاده، و نه "اثبات غلط" جعلی). وسایل نقلیه Waymo این کاربران جاده را با استفاده از شبکههای عصبی متعدد و روشهای دیگر شناسایی میکنند، اما هدف از این آزمایش آموزش این شبکه عصبی منفرد برای حفظ یادآوری بیش از 99٪ بود، در حالی که با استفاده از آموزش مبتنی بر جمعیت، موارد مثبت کاذب را کاهش داد.
ما از این آزمایش چیزهای زیادی یاد گرفتیم. اولاً، ما متوجه شدیم که باید یک ارزیابی واقعی و قوی برای شبکهها ایجاد کنیم تا بدانیم که آیا یک شبکه عصبی در موقعیتهای مختلف در دنیای واقعی واقعاً بهتر عمل میکند یا خیر. این ارزیابی اساس رقابتی را تشکیل داد که PBT برای انتخاب یک شبکه عصبی برنده بر دیگری به کار می گیرد. برای اطمینان از عملکرد خوب شبکه های عصبی به طور کلی، و نه صرفاً به خاطر سپردن پاسخ به مثال هایی که در طول آموزش دیده اند، ارزیابی مسابقه PBT ما از مجموعه ای از مثال ها ("مجموعه اعتبار سنجی") استفاده می کند که با نمونه های استفاده شده در آموزش متفاوت است ( "مجموعه تمرین.") برای تأیید عملکرد نهایی، از مجموعه سومی از مثال ها ("مجموعه ارزیابی") استفاده می کنیم که شبکه های عصبی هرگز در تمرین یا مسابقه ندیده اند.
ثانیاً، ما یاد گرفتیم که برای حمایت از رقابت مکرر تکاملی به ارزیابی سریع نیاز داریم. محققان به ندرت مدل های خود را در طول آموزش ارزیابی می کنند و زمانی که این کار را انجام می دهند، ارزیابی به ندرت انجام می شود. مدل های مورد نیاز PBT هر 15 دقیقه ارزیابی می شوند. برای رسیدن به این هدف، ما از مراکز داده Google برای موازی کردن ارزیابی در بین صدها ماشین توزیع شده استفاده کردیم.
قدرت تنوع در رقابت تکاملی
در طول این آزمایشها، ما متوجه شدیم که یکی از نقاط قوت PBT - تخصیص منابع بیشتر به نسل شبکههای با عملکرد بهتر - نیز میتواند یک ضعف باشد، زیرا PBT برای زمان حال بهینهسازی میشود و نتایج بلندمدت را در نظر نمیگیرد. این میتواند مشکلساز باشد، زیرا به دیرشکوفهها ضرر میزند، بنابراین شبکههای عصبی با فراپارامترهایی که در درازمدت بهتر عمل میکنند، شانس بلوغ و موفقیت را ندارند. یکی از راه های مبارزه با این امر افزایش تنوع جمعیتی است که می توان به سادگی با آموزش جمعیت بزرگتر به آن دست یافت. اگر جمعیت به اندازه کافی بزرگ باشد، شانس بیشتری برای بقای شبکههایی با ابرپارامترهای دیرشکفته و رسیدن به نسلهای بعدی وجود دارد.
در این آزمایشها، ما توانستیم با ایجاد زیرجمعیتهایی به نام «نیچ»، تنوع را افزایش دهیم، که در آن شبکههای عصبی فقط مجاز به رقابت در درون گروههای فرعی خودشان بودند – مشابه نحوه تکامل گونهها در جدا شدن در جزایر. ما همچنین سعی کردیم به طور مستقیم از طریق تکنیکی به نام "اشتراک گذاری تناسب اندام" به تنوع پاداش دهیم، که در آن تفاوت بین اعضای جمعیت را اندازه گیری می کنیم و به شبکه های عصبی منحصر به فرد بیشتری در رقابت برتری می دهیم. تنوع بیشتر به PBT اجازه می دهد تا فضای فراپارامتری بزرگتری را کشف کند.
نتایج
PBT باعث بهبود چشمگیر عملکرد مدل شد. برای آزمایش فوق، مدلهای PBT ما توانستند با کاهش 24 درصد موارد مثبت کاذب در مقایسه با معادل تنظیمشده دستی، دقت بالاتری را به دست آورند، در حالی که نرخ فراخوانی بالایی را حفظ کردند. مزیت اصلی روش های تکاملی مانند PBT این است که می توانند معیارهای پیچیده دلخواه را بهینه کنند. به طور سنتی، شبکه های عصبی را می توان تنها با استفاده از توابع از دست دادن ساده و روان، که به عنوان یک پروکسی برای آنچه ما واقعاً به آن اهمیت می دهیم، آموزش داد. PBT ما را قادر ساخت تا فراتر از قانون بهروزرسانی که برای آموزش شبکههای عصبی استفاده میشود، برویم و به سمت معیارهای پیچیدهتر بهینهسازی برای ویژگیهایی که به آنها اهمیت میدهیم، مانند حداکثر کردن دقت در نرخهای فراخوان بالا برویم.
PBT همچنین در زمان و منابع صرفه جویی می کند. برنامه هایپرپارامتر کشف شده با شبکه های آموزش دیده با PBT با نصف زمان و منابع آموزشی از شبکه قبلی Waymo بهتر عمل کرد. به طور کلی، PBT از نیمی از منابع محاسباتی استفاده شده توسط جستجوی موازی تصادفی استفاده می کند تا به طور موثر برنامه های هایپرپارامتری بهتر را کشف کند. همچنین باعث صرفه جویی در وقت محققان می شود – با گنجاندن PBT مستقیماً در زیرساخت فنی Waymo، محققان از سراسر شرکت می توانند این روش را با کلیک یک دکمه اعمال کنند و زمان کمتری را صرف تنظیم نرخ یادگیری خود کنند. از زمان تکمیل این آزمایشها، PBT در بسیاری از مدلهای مختلف Waymo اعمال شده است و نوید زیادی برای کمک به ایجاد وسایل نقلیه توانمندتر برای جادهها دارد.
مشارکت کنندگان: کار توضیح داده شده در اینجا یک همکاری تحقیقاتی بین Yu-hsin Chen و Matthieu Devin از Waymo، و علی رضوی، Ang Li، Sibon Li، Ola Spyra، Pramod Gupta و Oriol Vinyals از DeepMind بود. مشاوران این پروژه عبارتند از مکس جادربرگ، والنتین دالیبارد، مایر فورتوناتو و جکسون بروشیر از DeepMind.
- مزیت - فایده - سود - منفعت
- مشاوران
- ANG
- دور و بر
- اهميت دادن
- اتومبیل
- کشتی
- رئیس
- همکاری
- شرکت
- رقابت
- ایجاد
- داده ها
- Deepmind
- لذت
- کشف
- تنوع
- لبه
- تجربه
- FAST
- امکانات
- نام خانوادگی
- اینجا کلیک نمایید
- زیاد
- چگونه
- HTTPS
- صدها نفر
- افزایش
- شالوده
- بررسی
- گرفتار
- IT
- بزرگ
- آموخته
- یادگیری
- طولانی
- ماشین آلات
- اندازه
- اعضا
- متریک
- مدل
- خالص
- شبکه
- شبکه
- عصبی
- دیگر
- کارایی
- جمعیت
- قدرت
- دقت
- در حال حاضر
- پروژه
- طرح پیشنهادی
- پروکسی
- نرخ
- تحقیق
- منابع
- جستجو
- ماشین های خودران
- خود رانندگی
- تنظیم
- ساده
- So
- فضا
- خرج کردن
- پشتیبانی
- فنی
- زمان
- آموزش
- بروزرسانی
- us
- کاربران
- وسایل نقلیه
- شیوه
- در داخل
- مهاجرت کاری
- جهان