Procgen And MineRL Competitions

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Είμαστε ενθουσιασμένοι που ανακοινώνουμε ότι το OpenAI συνδιοργανώνει δύο διαγωνισμούς NeurIPS 2020 με AIcrowd, Carnegie Mellon University, να Deepmind, με τη χρήση Σημείο αναφοράς Procgen και MineRL. Βασιζόμαστε σε μεγάλο βαθμό σε αυτά τα περιβάλλοντα εσωτερικά για έρευνα σχετικά με την ενίσχυση της μάθησης και ανυπομονούμε να δούμε την πρόοδο που κάνει η κοινότητα σε αυτούς τους απαιτητικούς διαγωνισμούς.

Διαγωνισμός Procgen

Εγγραφείτε στο Procgen

Η Διαγωνισμός Procgen εστιάζει στη βελτίωση της αποτελεσματικότητας του δείγματος και της γενίκευσης στη μάθηση ενίσχυσης Οι συμμετέχοντες θα προσπαθήσουν να μεγιστοποιήσουν την απόδοση των πρακτόρων χρησιμοποιώντας έναν καθορισμένο αριθμό αλληλεπιδράσεων περιβάλλοντος. Παράγοντες θα αξιολογηθούν σε κάθε ένα από τα 16 περιβάλλοντα ήδη δημοσίως κυκλοφόρησε το Σημείο αναφοράς Procgen, καθώς και σε τέσσερα μυστικά περιβάλλοντα δοκιμών που δημιουργήθηκαν ειδικά για αυτόν τον διαγωνισμό. Συγκεντρώνοντας την απόδοση σε τόσα πολλά διαφορετικά περιβάλλοντα, λαμβάνουμε μετρήσεις υψηλής ποιότητας για να κρίνουμε τους υποκείμενους αλγόριθμους. Μπορείτε να βρείτε περισσότερες πληροφορίες σχετικά με τις λεπτομέρειες κάθε γύρου εδώ.

Δεδομένου ότι όλο το περιεχόμενο δημιουργείται διαδικαστικά, κάθε περιβάλλον Procgen απαιτεί εγγενώς από τους πράκτορες να γενικεύονται σε καταστάσεις που δεν έχουν ξαναδεί. Αυτά τα περιβάλλοντα παρέχουν επομένως μια ισχυρή δοκιμασία της ικανότητας ενός πράκτορα να μάθει σε πολλές διαφορετικές ρυθμίσεις. Επιπλέον, σχεδιάσαμε Procgen περιβάλλοντα για να είναι γρήγορη και απλή στη χρήση. Οι συμμετέχοντες με περιορισμένους υπολογιστικούς πόρους θα μπορούν να αναπαράγουν εύκολα τα βασικά μας αποτελέσματα και να εκτελούν νέα πειράματα. Ελπίζουμε ότι αυτό θα δώσει τη δυνατότητα στους συμμετέχοντες να επαναλάβουν γρήγορα τις νέες μεθόδους για τη βελτίωση της αποτελεσματικότητας του δείγματος και της γενίκευσης στο RL.

Διαγωνισμός MineRL

Εγγραφείτε στο MineRL

Πολλές από τις πρόσφατες, γνωστές επιτυχίες της τεχνητής νοημοσύνης, όπως το AlphaStar, το AlphaGo και οι δικές μας OpenAI Five, αξιοποιήστε την εκμάθηση βαθιάς ενίσχυσης για να επιτύχετε επιδόσεις σε ανθρώπινο ή υπεράνθρωπο επίπεδο σε διαδοχικές εργασίες λήψης αποφάσεων. Αυτές οι βελτιώσεις στο υπερσύγχρονο μέχρι τώρα απαιτούσαν αυξάνεται εκθετικά ο αριθμός των δειγμάτων υπολογισμού και προσομοιωτή, και επομένως είναι δύσκολο να εφαρμοστούν πολλά από αυτά τα συστήματα απευθείας σε προβλήματα πραγματικού κόσμου όπου τα δείγματα περιβάλλοντος είναι ακριβά. Ένας πολύ γνωστός τρόπος για να μειωθεί η πολυπλοκότητα του δείγματος περιβάλλοντος είναι να αξιοποιηθούν τα ανθρώπινα προηγούμενα και οι επιδείξεις της επιθυμητής συμπεριφοράς.

[Ενσωματωμένο περιεχόμενο]

Μια απόδοση της πρώτης θέσης από τον διαγωνισμό MineRL 1 που παίρνει μια σιδερένια αξίνα.

Για να καταλύσουμε περαιτέρω την έρευνα προς αυτή την κατεύθυνση, συνδιοργανώνουμε το Διαγωνισμός MineRL 2020 που στοχεύει στην προώθηση της ανάπτυξης αλγορίθμων που μπορούν να αξιοποιήσουν αποτελεσματικά τις ανθρώπινες επιδείξεις για να μειώσουν δραστικά τον αριθμό των δειγμάτων που απαιτούνται για την επίλυση σύνθετων, ιεραρχικών και αραιών περιβαλλόντων. Για το σκοπό αυτό, οι συμμετέχοντες θα ανταγωνίζονται για την ανάπτυξη συστημάτων που μπορούν να αποκτήσουν ένα διαμάντι Minecraft από ακατέργαστα pixel χρησιμοποιώντας μόνο 8,000,000 δείγματα από το Προσομοιωτής MineRL και 4 ημέρες εκπαίδευσης σε ένα μηχάνημα GPU. Οι συμμετέχοντες θα λάβουν το σύνολο δεδομένων MineRL-v0 ( , χαρτί), μια μεγάλη συλλογή από πάνω από 60 εκατομμύρια πλαίσια ανθρώπινων επιδείξεων, επιτρέποντάς τους να χρησιμοποιούν εξειδικευμένες τροχιές για να ελαχιστοποιήσουν τις αλληλεπιδράσεις του αλγορίθμου τους με τον προσομοιωτή Minecraft.

Αυτός ο διαγωνισμός αποτελεί συνέχεια του Διαγωνισμός MineRL 2019 στην οποία το πράκτορας της κορυφαίας ομάδας ήταν σε θέση να αποκτήστε μια σιδερένια αξίνα (ο προτελευταίος στόχος του διαγωνισμού) κάτω από αυτόν τον εξαιρετικά περιορισμένο προϋπολογισμό υπολογισμού και προσομοίωσης-αλληλεπίδρασης. Εν ολίγοις, τα υπερσύγχρονα τυπικά συστήματα εκμάθησης ενίσχυσης απαιτούν εκατοντάδες εκατομμύρια αλληλεπιδράσεις περιβάλλοντος σε μεγάλα συστήματα πολλαπλών GPU για την επίτευξη του ίδιου στόχου. Φέτος, αναμένουμε ότι οι ανταγωνιστές θα προωθήσουν ακόμη περισσότερο την υπερσύγχρονη τεχνολογία.

Για να εγγυηθούν ότι οι ανταγωνιστές αναπτύσσουν πραγματικά αποτελεσματικούς δείκτες αλγόριθμους, οι διοργανωτές του διαγωνισμού MineRL εκπαιδεύουν τα τελικά στρογγυλά μοντέλα της κορυφαίας ομάδας από το μηδέν με αυστηρούς περιορισμούς στο υλικό, τον υπολογισμό και τη διαθέσιμη αλληλεπίδραση προσομοιωτή. Ο διαγωνισμός MineRL 2020 διαθέτει επίσης ένα νέο μέτρο για την αποφυγή χαρακτηριστικών μηχανικών χεριών και την επίλυση λύσεων στον τομέα. Μπορείτε να βρείτε περισσότερες λεπτομέρειες σχετικά με τη δομή του διαγωνισμού εδώ.

Πηγή: https://openai.com/blog/procgen-minerl-competitions/

Σφραγίδα ώρας: Ιούνιος 9, 2020