Kompetisi Procgen dan MineRL

Node Sumber: 768080

Kami sangat senang mengumumkan bahwa OpenAI menyelenggarakan dua kompetisi NeurIPS 2020 bersama kerumunan, Carnegie Mellon University, dan DeepMind, Menggunakan Benchmark Procgen dan TambangRL. Kami sangat bergantung pada lingkungan ini secara internal untuk penelitian tentang pembelajaran penguatan, dan kami berharap dapat melihat kemajuan yang dibuat komunitas dalam kompetisi yang menantang ini.

Kompetisi Procgen

Daftar ke Procgen

Grafik Kompetisi Procgen berfokus pada peningkatan efisiensi sampel dan generalisasi dalam pembelajaran penguatan. Peserta akan mencoba untuk memaksimalkan kinerja agen menggunakan sejumlah interaksi lingkungan yang tetap. Agen akan dievaluasi di masing-masing dari 16 lingkungan yang sudah dirilis secara publik Benchmark Procgen, serta di empat lingkungan pengujian rahasia yang dibuat khusus untuk kompetisi ini. Dengan menggabungkan kinerja di berbagai lingkungan yang beragam, kami memperoleh metrik berkualitas tinggi untuk menilai algoritme yang mendasarinya. Informasi lebih lanjut tentang detail setiap putaran dapat ditemukan di sini.

Karena semua konten dihasilkan secara prosedural, setiap lingkungan Procgen secara intrinsik membutuhkan agen untuk menggeneralisasi ke situasi yang belum pernah terlihat sebelumnya. Oleh karena itu, lingkungan ini memberikan pengujian yang kuat atas kemampuan agen untuk belajar di banyak pengaturan yang beragam. Selain itu, kami merancang lingkungan Procgen agar cepat dan mudah digunakan. Peserta dengan sumber daya komputasi terbatas akan dapat dengan mudah mereproduksi hasil dasar kami dan menjalankan eksperimen baru. Kami berharap ini akan memberdayakan peserta untuk segera beralih pada metode baru untuk meningkatkan efisiensi sampel dan generalisasi di RL.

Kompetisi MineRL

Daftar ke MineRL

Banyak dari kesuksesan kecerdasan buatan yang baru-baru ini dirayakan, seperti AlphaStar, AlphaGo, dan milik kita sendiri OpenAI Lima, memanfaatkan pembelajaran penguatan mendalam untuk mencapai kinerja tingkat manusia atau super-manusia dalam tugas pengambilan keputusan berurutan. Perbaikan ke state-of-the-art sejauh ini membutuhkan meningkat secara eksponensial jumlah sampel komputasi dan simulator, dan oleh karena itu sulit untuk menerapkan banyak dari sistem ini secara langsung ke masalah dunia nyata di mana sampel lingkungan mahal. Salah satu cara terkenal untuk mengurangi kompleksitas sampel lingkungan adalah dengan memanfaatkan pendahuluan manusia dan demonstrasi perilaku yang diinginkan.

Perenderan juara I kompetisi MineRL 1 mendapatkan beliung besi.

Untuk lebih mengkatalisasi penelitian ke arah ini, kami mengorganisir bersama Kompetisi MineRL 2020 yang bertujuan untuk mendorong pengembangan algoritme yang dapat secara efisien memanfaatkan demonstrasi manusia untuk secara drastis mengurangi jumlah sampel yang diperlukan untuk menyelesaikan lingkungan yang kompleks, hierarkis, dan jarang. Untuk itu, peserta akan berlomba-lomba mengembangkan sistem yang bisa di dapatkan berlian Minecraft dari piksel mentah hanya menggunakan 8,000,000 sampel dari Simulator MineRL dan 4 hari pelatihan pada satu mesin GPU. Peserta akan diberikan set data MineRL-v0 (situs web, kertas), kumpulan skala besar lebih dari 60 juta bingkai demonstrasi manusia, memungkinkan mereka memanfaatkan lintasan ahli untuk meminimalkan interaksi algoritme mereka dengan simulator Minecraft.

Kompetisi ini merupakan tindak lanjut dari Kompetisi MineRL 2019 dimana agen tim teratas mampu dapatkan beliung besi (tujuan terakhir dari kompetisi) di bawah anggaran komputasi dan simulator-interaksi yang sangat terbatas ini. Dalam perspektif, sistem pembelajaran penguatan standar yang canggih membutuhkan ratusan juta interaksi lingkungan pada sistem multi-GPU yang besar untuk mencapai tujuan yang sama. Tahun ini, kami mengantisipasi pesaing akan mendorong lebih jauh teknologi mutakhir.

Untuk menjamin bahwa pesaing mengembangkan algoritme sampel yang benar-benar efisien, penyelenggara kompetisi MineRL melatih model babak final tim teratas dari awal dengan batasan ketat pada perangkat keras, komputasi, dan interaksi simulator yang tersedia. Kompetisi MineRL 2020 juga menampilkan ukuran baru untuk menghindari fitur rekayasa tangan dan solusi overfitting ke domain. Rincian lebih lanjut tentang struktur kompetisi dapat ditemukan di sini.

Sumber: https://openai.com/blog/procgen-minerl-competitions/

Stempel Waktu:

Lebih dari OpenAI