Concorsi Procgen e MineRL

Nodo di origine: 768080

Siamo lieti di annunciare che OpenAI sta organizzando due concorsi NeurIPS 2020 AIfolla, Carnegie Mellon Universitye DeepMind, utilizzando Benchmark di Procgen ed minieraRL. Facciamo molto affidamento su questi ambienti internamente per la ricerca sull'apprendimento per rinforzo e non vediamo l'ora di vedere i progressi della community in queste sfide impegnative.

Concorrenza Procgen

Iscriviti a Procgen

I Concorrenza Procgen si concentra sul miglioramento dell'efficienza e della generalizzazione del campione nell'apprendimento per rinforzo. I partecipanti cercheranno di massimizzare le prestazioni degli agenti utilizzando un numero fisso di interazioni con l'ambiente. Gli agenti verranno valutati in ciascuno dei 16 ambienti già rilasciati pubblicamente in Benchmark di Procgen, nonché in quattro ambienti di test segreti creati appositamente per questa competizione. Aggregando le prestazioni in così tanti ambienti diversi, otteniamo metriche di alta qualità per giudicare gli algoritmi sottostanti. Maggiori informazioni sui dettagli di ciascun round sono disponibili qui.

Poiché tutto il contenuto è generato proceduralmente, ogni ambiente Procgen richiede intrinsecamente agli agenti di generalizzare a situazioni mai viste prima. Questi ambienti forniscono quindi un test affidabile della capacità di un agente di apprendere in molti contesti diversi. Inoltre, abbiamo progettato gli ambienti Procgen per essere veloci e semplici da usare. I partecipanti con risorse di calcolo limitate saranno in grado di riprodurre facilmente i nostri risultati di base ed eseguire nuovi esperimenti. Ci auguriamo che ciò consentirà ai partecipanti di iterare rapidamente nuovi metodi per migliorare l'efficienza e la generalizzazione dei campioni in RL.

Competizione MineRL

Iscriviti a MineRL

Molti dei recenti e celebri successi dell'intelligenza artificiale, come AlphaStar, AlphaGo e i nostri OpenAI Cinque, utilizzare l'apprendimento approfondito del rinforzo per raggiungere prestazioni a livello umano o superumano in compiti decisionali sequenziali. Questi miglioramenti allo stato dell'arte hanno finora richiesto un esponenzialmente in aumento quantità di campioni di calcolo e simulatore, e quindi è difficile applicare molti di questi sistemi direttamente ai problemi del mondo reale in cui i campioni di ambiente sono costosi. Un modo ben noto per ridurre la complessità del campione ambientale è sfruttare le priorità umane e le dimostrazioni del comportamento desiderato.

Un rendering della presentazione del 1 ° posto dal concorso MineRL 2019 che ottiene un piccone di ferro.

Per catalizzare ulteriormente la ricerca in questa direzione, stiamo organizzando insieme Concorso MineRL 2020 che mira a favorire lo sviluppo di algoritmi in grado di sfruttare efficacemente le dimostrazioni umane per ridurre drasticamente il numero di campioni necessari per risolvere ambienti complessi, gerarchici e sparsi. A tal fine, i partecipanti competeranno per sviluppare sistemi in grado di ottenere un diamante Minecraft da pixel non elaborati utilizzando solo 8,000,000 di campioni dal Simulatore MineRL e 4 giorni di allenamento su una singola macchina GPU. Ai partecipanti verrà fornito il set di dati MineRL-v0 (sito web, carta), una raccolta su larga scala di oltre 60 milioni di frame di dimostrazioni umane, che consente loro di utilizzare traiettorie di esperti per ridurre al minimo le interazioni del loro algoritmo con il simulatore Minecraft.

Questa competizione fa seguito al Concorso MineRL 2019 in cui il agente della migliore squadra era in grado di ottenere un piccone di ferro (il penultimo obiettivo della competizione) nell'ambito di questo budget di calcolo e interazione simulatore estremamente limitato. In prospettiva, i sistemi di apprendimento del rinforzo standard all'avanguardia richiedono centinaia di milioni di interazioni ambientali su grandi sistemi multi-GPU per raggiungere lo stesso obiettivo. Quest'anno prevediamo che i concorrenti spingano ulteriormente lo stato dell'arte.

Per garantire che i concorrenti sviluppino algoritmi veramente efficienti, gli organizzatori della competizione MineRL addestrano da zero i modelli del round finale della migliore squadra con vincoli rigorosi su hardware, calcolo e interazione simulatore disponibili. Il concorso MineRL 2020 prevede anche una nuova misura per evitare le funzionalità di ingegneria manuale e le soluzioni di adattamento eccessivo al dominio. Maggiori dettagli sulla struttura della competizione sono disponibili qui.

Fonte: https://openai.com/blog/procgen-minerl-competitions/

Timestamp:

Di più da OpenAI