תחרויות Procgen ו- MineRL

צומת המקור: 768080

אנו שמחים לבשר כי OpenAI מארגנת יחד שתי תחרויות NeurIPS 2020 Accadd, אוניברסיטת קרנגי מלון, ו Deepmindבאמצעות פרוקסן בנצ'מרק ו MineRL. אנו מסתמכים מאוד על סביבות אלה באופן פנימי למחקר על למידת חיזוק, ואנחנו מצפים לראות את ההתקדמות שהקהילה עושה בתחרויות מאתגרות אלה.

תחרות פרוקגן

הירשם ל- Procgen

אל האני תחרות פרוקגן מתמקד בשיפור יעילות המדגם והכללה בלימוד חיזוק. המשתתפים ינסו למקסם את ביצועי הסוכנים באמצעות מספר קבוע של אינטראקציות סביבתיות. סוכנים יוערכו בכל אחת מ -16 הסביבות שכבר פורסמו בפומבי פרוקסן בנצ'מרקוכן בארבע סביבות מבחן סודיות שנוצרו במיוחד לתחרות זו. על ידי צבירת ביצועים בסביבות כה רבות ומגוונות, אנו משיגים ערכים באיכות גבוהה כדי לשפוט את האלגוריתמים הבסיסיים. ניתן למצוא מידע נוסף על פרטי כל סיבוב כאן.

מכיוון שכל התוכן נוצר באופן פרוצדוראלי, כל סביבת פרוג'ן מחייבת באופן מהותי סוכנים להכליל למצבים שלא נראו מעולם. סביבות אלה מספקות אפוא מבחן חזק ביכולתו של סוכן ללמוד בהגדרות רבות ומגוונות. יתר על כן, עיצבנו סביבות Procgen כך שיהיו מהירות ופשוטות לשימוש. משתתפים עם משאבי חישוב מוגבלים יוכלו לשחזר בקלות את תוצאות הבסיס שלנו ולבצע ניסויים חדשים. אנו מקווים שזה יעשה את המשתתפים לחזור במהירות על שיטות חדשות לשיפור יעילות המדגם והכללה ב- RL.

תחרות MineRL

הירשם ל- MineRL

רבים מההצלחות האחרונות שנחשפו בתחום הבינה המלאכותית, כמו AlphaStar, AlphaGo, ושלנו OpenAI חמשלנצל למידת חיזוק עמוקה כדי להשיג ביצועים ברמה אנושית או סופר-אנושית במשימות קבלת החלטות עוקבות. שיפורים אלה למודרנים נדרשו עד כה עולה באופן אקספוננציאלי כמות דגימות מחשוב וסימולטור, ולכן קשה ליישם מערכות רבות אלה ישירות לבעיות בעולם האמיתי בהן דגימות הסביבה יקרות. אחת הדרכים הידועות להפחתת המורכבות של מדגם הסביבה היא למנף קודמות והדגמות של התנהגות רצויה של בני אדם.

עיבוד של הגשת המקום הראשון מתחרות MineRL 1 לקבל מכה ברזל.

כדי להמשיך ולזרז את המחקר בכיוון זה, אנו מארגנים יחד את תחרות MineRL 2020 שמטרתה לטפח פיתוח אלגוריתמים שיכולים למנף ביעילות הדגמות אנושיות כדי להפחית בצורה דרסטית את מספר הדגימות הדרושות לפיתרון סביבות מורכבות, היררכיות ודלילות. לשם כך, המשתתפים יתחרו בפיתוח מערכות שיכולות להשיג יהלום Minecraft מפיקסלים גולמיים המשתמשים רק ב 8,000,000 דגימות מתוך ה- סימולטור MineRL ו -4 ימי אימונים במכונת GPU יחידה. המשתתפים יקבלו את מערך הנתונים MineRL-v0 (אתר אינטרנט, מאמר), אוסף בקנה מידה גדול של למעלה מ- 60 מיליון פריימים של הדגמות אנושיות, המאפשר להם להשתמש במסלולי מומחים כדי למזער את האינטראקציות של האלגוריתם שלהם עם סימולטור Minecraft.

תחרות זו היא מעקב אחר התחרות תחרות MineRL 2019 בו ה סוכן הקבוצה העליונה היה מסוגל ל להשיג ברזל ברזל (המטרה הלפני אחרונה של התחרות) בתקציב אינטראקציה מחושב וסימולטור זה מוגבלת ביותר. בפרספקטיבה, מערכות לימוד חיזוק סטנדרטיות עדכניות דורשות מאות מיליוני אינטראקציות סביבתיות במערכות רב-GPU גדולות כדי להשיג אותה מטרה. השנה אנו צופים כי המתחרים ידחפו עוד יותר את המצב.

כדי להבטיח כי המתחרים מפתחים אלגוריתמים יעילים באמת, מארגני התחרות של MineRL מאמנים את דגמי הסיבוב הסופי של הצוות הבסיסי מאפס עם אילוצים קפדניים על החומרה, המחשוב ואינטראקציות הסימולטור הזמינות. תחרות MineRL 2020 כוללת גם אמצעי חדשני להימנעות מתכונות הנדסיות ידניות ופתרונות יתר לתחום. ניתן למצוא פרטים נוספים על מבנה התחרות כאן.

מקור: https://openai.com/blog/procgen-minerl-competitions/

בול זמן:

עוד מ OpenAI