Procgen- und MineRL-Wettbewerbe

Quellknoten: 768080

Wir freuen uns, Ihnen mitteilen zu können, dass OpenAI zwei NeurIPS 2020-Wettbewerbe mit organisiert AImenge, Carnegie Mellon University und DeepMindunter Verwendung von Procgen-Benchmark und MineRL. Wir verlassen uns intern stark auf diese Umgebungen, um das Lernen zur Stärkung zu erforschen, und freuen uns auf die Fortschritte, die die Community bei diesen herausfordernden Wettbewerben erzielt.

Procgen-Wettbewerb

Melden Sie sich bei Procgen an

Das Procgen-Wettbewerb konzentriert sich auf die Verbesserung der Stichprobeneffizienz und die Verallgemeinerung des verstärkten Lernens. Die Teilnehmer werden versuchen, die Leistung der Agenten mithilfe einer festgelegten Anzahl von Umgebungsinteraktionen zu maximieren. Agenten werden in jeder der 16 bereits öffentlich veröffentlichten Umgebungen bewertet Procgen-Benchmarksowie in vier geheimen Testumgebungen, die speziell für diesen Wettbewerb erstellt wurden. Durch die Zusammenfassung der Leistung in so vielen verschiedenen Umgebungen erhalten wir qualitativ hochwertige Metriken, um die zugrunde liegenden Algorithmen zu beurteilen. Weitere Informationen zu den Details jeder Runde finden Sie hier hier.

Da der gesamte Inhalt prozedural generiert wird, müssen Agenten in jeder Procgen-Umgebung auf nie zuvor gesehene Situationen verallgemeinern. Diese Umgebungen bieten daher einen zuverlässigen Test für die Lernfähigkeit eines Agenten in vielen verschiedenen Umgebungen. Darüber hinaus haben wir Procgen-Umgebungen so konzipiert, dass sie schnell und einfach zu verwenden sind. Teilnehmer mit begrenzten Rechenressourcen können unsere Basisergebnisse problemlos reproduzieren und neue Experimente durchführen. Wir hoffen, dass dies den Teilnehmern die Möglichkeit gibt, neue Methoden zur Verbesserung der Stichprobeneffizienz und Verallgemeinerung in RL schnell zu wiederholen.

MineRL-Wettbewerb

Melden Sie sich bei MineRL an

Viele der jüngsten Erfolge der künstlichen Intelligenz wie AlphaStar, AlphaGo und unsere eigenen OpenAI FünfVerwenden Sie tiefgreifendes Lernen, um bei sequenziellen Entscheidungsaufgaben eine Leistung auf menschlicher oder übermenschlicher Ebene zu erzielen. Diese Verbesserungen des Standes der Technik erforderten bisher eine exponentiell ansteigend Menge an Rechen- und Simulator-Samples, und daher ist es schwierig, viele dieser Systeme direkt auf reale Probleme anzuwenden, bei denen Umgebungs-Samples teuer sind. Ein bekannter Weg, um die Komplexität der Umgebungsproben zu reduzieren, besteht darin, menschliche Prioritäten zu nutzen und das gewünschte Verhalten zu demonstrieren.

Ein Rendering des 1. Platzes des MineRL 2019-Wettbewerbs mit einer eisernen Spitzhacke.

Um die Forschung in diese Richtung weiter zu katalysieren, organisieren wir die MineRL 2020 Wettbewerb Ziel ist es, die Entwicklung von Algorithmen zu fördern, mit denen menschliche Demonstrationen effizient genutzt werden können, um die Anzahl der zur Lösung komplexer, hierarchischer und spärlicher Umgebungen erforderlichen Stichproben drastisch zu reduzieren. Zu diesem Zweck konkurrieren die Teilnehmer um die Entwicklung von Systemen, mit denen ein Diamant erhalten werden kann Minecraft aus Rohpixeln mit nur 8,000,000 Samples aus dem MineRL-Simulator und 4 Tage Training auf einem einzelnen GPU-Computer. Den Teilnehmern wird der MineRL-v0-Datensatz zur Verfügung gestellt (Website , Krepppapier), eine umfangreiche Sammlung von über 60 Millionen Bildern menschlicher Demonstrationen, die es ihnen ermöglichen, Experten-Trajektorien zu verwenden, um die Interaktionen ihres Algorithmus mit dem Minecraft-Simulator zu minimieren.

Dieser Wettbewerb ist eine Fortsetzung des MineRL 2019 Wettbewerb in dem die Agent des Top-Teams konnte Besorgen Sie sich eine eiserne Spitzhacke (das vorletzte Ziel des Wettbewerbs) unter diesem äußerst begrenzten Budget für Computer- und Simulator-Interaktion. In der Perspektive gesehen erfordern hochmoderne Standard-Verstärkungslernsysteme Hunderte Millionen von Umgebungsinteraktionen auf großen Multi-GPU-Systemen, um dasselbe Ziel zu erreichen. Wir gehen davon aus, dass die Wettbewerber in diesem Jahr den Stand der Technik noch weiter vorantreiben werden.

Um sicherzustellen, dass die Wettbewerber wirklich beispielhafte, effiziente Algorithmen entwickeln, trainieren die Organisatoren des MineRL-Wettbewerbs die Finalrundenmodelle des Top-Teams von Grund auf mit strengen Einschränkungen hinsichtlich der verfügbaren Hardware, Rechenleistung und Simulator-Interaktion. Der MineRL 2020-Wettbewerb bietet auch eine neuartige Maßnahme, um handgefertigte Funktionen und Überanpassungslösungen für die Domäne zu vermeiden. Weitere Details zur Wettbewerbsstruktur finden Sie hier hier.

Quelle: https://openai.com/blog/procgen-minerl-competitions/

Zeitstempel:

Mehr von OpenAI