AI And Efficiency

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Δημοσιεύουμε μια ανάλυση που δείχνει ότι από το 2012 η ποσότητα υπολογισμού που απαιτείται για την εκπαίδευση ενός νευρικού δικτύου στην ίδια απόδοση στο ImageNet Η ταξινόμηση μειώνεται κατά 2 φορές κάθε 16 μήνες. Σε σύγκριση με το 2012, χρειάζεται πλέον 44 φορές λιγότερος υπολογισμός για την εκπαίδευση ενός νευρωνικού δικτύου στο επίπεδο του AlexNet (αντίθετα, ο νόμος του Μουρ θα αποφέρει 11 φορές βελτίωση του κόστους κατά τη διάρκεια αυτής της περιόδου). Τα αποτελέσματά μας υποδηλώνουν ότι για εργασίες τεχνητής νοημοσύνης με υψηλά επίπεδα πρόσφατων επενδύσεων, η αλγοριθμική πρόοδος έχει αποφέρει περισσότερα κέρδη από την κλασική απόδοση υλικού.

Διαβάστε το χαρτί

Η αλγοριθμική βελτίωση είναι ένας βασικός παράγοντας που οδηγεί στην πρόοδο της τεχνητής νοημοσύνης. Είναι σημαντικό να αναζητήσετε μέτρα που ρίχνουν φως στη συνολική αλγοριθμική πρόοδο, παρόλο που είναι πιο δύσκολο από τη μέτρηση τέτοιων τάσεων στον υπολογισμό.

Απαιτείται 44 φορές λιγότερος υπολογισμός για να φτάσετε στην απόδοση του AlexNet 7 χρόνια αργότερα

Συνολική ποσότητα υπολογισμού σε teraflops/s-ημέρες που χρησιμοποιείται για την εκπαίδευση στην απόδοση επιπέδου AlexNet. Τα χαμηλότερα σημεία υπολογισμού ανά πάσα στιγμή εμφανίζονται με μπλε, όλα τα σημεία που μετρώνται εμφανίζονται με γκρι.

Λήψη γραφημάτων

Μέτρηση της αποτελεσματικότητας

Η αλγοριθμική απόδοση μπορεί να οριστεί ως η μείωση του υπολογισμού που απαιτείται για την εκπαίδευση μιας συγκεκριμένης ικανότητας. Η αποτελεσματικότητα είναι ο πρωταρχικός τρόπος με τον οποίο μετράμε την αλγοριθμική πρόοδο σε κλασικά προβλήματα επιστήμης υπολογιστών, όπως η ταξινόμηση. Τα κέρδη απόδοσης σε παραδοσιακά προβλήματα, όπως η ταξινόμηση, είναι πιο απλά στη μέτρηση από ό,τι στο ML, επειδή έχουν ένα σαφέστερο μέτρο δυσκολίας εργασίας. Ωστόσο, μπορούμε να εφαρμόσουμε τον φακό αποδοτικότητας στη μηχανική μάθηση διατηρώντας σταθερή την απόδοση. Οι τάσεις απόδοσης μπορούν να συγκριθούν σε τομείς όπως η αλληλουχία DNA (10μηνος διπλασιασμός), ηλιακή ενέργεια (διπλασιασμός 6 ετών) και πυκνότητα τρανζίστορ (διπλασιασμός 2 ετών).

Για την ανάλυσή μας, αξιοποιήσαμε κατά κύριο λόγο τις εκ νέου υλοποιήσεις ανοιχτού κώδικα για τη μέτρηση της προόδου στην απόδοση σε επίπεδο AlexNet σε μεγάλο ορίζοντα. Είδαμε παρόμοιο ρυθμό βελτίωσης της απόδοσης της εκπαίδευσης για την απόδοση επιπέδου ResNet-50 στο ImageNet (χρόνος διπλασιασμού 17 μηνών). Είδαμε ταχύτερους ρυθμούς βελτίωσης σε μικρότερα χρονικά διαστήματα στα Translation, Go και Dota 2:

Μέσα στη μετάφραση, ο Μετασχηματιστής ξεπέρασε seq2seq απόδοση στη μετάφραση Αγγλικά προς Γαλλικά στο WMT'14 με 61 φορές λιγότερη εκπαίδευση 3 χρόνια αργότερα.
Υπολογίζουμε το AlphaZero χρειάστηκαν 8 φορές λιγότεροι υπολογισμοί για να φτάσουμε στο AlphaGoZero επίπεδο απόδοσης 1 χρόνο αργότερα.
Το OpenAI Five Rerun απαιτούσε 5 φορές λιγότερο υπολογισμό εκπαίδευσης για να ξεπεράσει το OpenAI Five (που κέρδισε τους παγκόσμιους πρωταθλητές, OG) 3 μήνες μετά.

Μπορεί να είναι χρήσιμο να σκεφτούμε ότι ο υπολογισμός το 2012 δεν είναι ίσος με τον υπολογισμό του 2019 με παρόμοιο τρόπο που τα δολάρια πρέπει να προσαρμοστούν στον πληθωρισμό με την πάροδο του χρόνου. Ένα σταθερό ποσό υπολογισμού θα μπορούσε να επιτύχει περισσότερα το 2019 από ό,τι το 2012. Ένας τρόπος για να το σκεφτούμε αυτό είναι ότι ορισμένοι τύποι έρευνας της τεχνητής νοημοσύνης προχωρούν σε δύο στάδια, παρόμοια με το μοντέλο ανάπτυξης «τικ τακ» που παρατηρείται στους ημιαγωγούς. Οι νέες δυνατότητες (το "τσιμπούρι") απαιτούν συνήθως ένα σημαντικό ποσό υπολογιστικών δαπανών για να αποκτηθούν, και στη συνέχεια οι εκλεπτυσμένες εκδόσεις αυτών των δυνατοτήτων (το "tock") γίνονται πολύ πιο αποτελεσματικές στην ανάπτυξη λόγω βελτιώσεων της διαδικασίας.

Οι αυξήσεις στην αλγοριθμική απόδοση επιτρέπουν στους ερευνητές να κάνουν περισσότερα πειράματα ενδιαφέροντος σε δεδομένο χρόνο και χρήμα. Εκτός από το μέτρο της συνολικής προόδου, τα κέρδη αλγοριθμικής απόδοσης επιταχύνουν τη μελλοντική έρευνα τεχνητής νοημοσύνης με τρόπο που είναι κάπως ανάλογος με την ύπαρξη περισσότερων υπολογισμών.

Άλλα μέτρα προόδου της τεχνητής νοημοσύνης

Εκτός από την αποτελεσματικότητα, πολλά άλλα μέτρα ρίχνουν φως στη συνολική αλγοριθμική πρόοδο στην τεχνητή νοημοσύνη. Κόστος εκπαίδευσης σε δολάρια σχετίζεται, αλλά εστιάζεται λιγότερο στην αλγοριθμική πρόοδο, επειδή επηρεάζεται επίσης από τη βελτίωση του υποκείμενου υλικού, της χρήσης υλικού και της υποδομής cloud. Η αποτελεσματικότητα του δείγματος είναι το κλειδί όταν βρισκόμαστε σε καθεστώς χαμηλών δεδομένων, κάτι που ισχύει για πολλές εργασίες που μας ενδιαφέρουν. Δυνατότητα εκπαίδευσης μοντέλων γρηγορότερα επιταχύνει επίσης την έρευνα και μπορεί να θεωρηθεί ως μέτρο της παραλληλισμού μαθησιακών δυνατοτήτων ενδιαφέροντος. Βρίσκουμε επίσης αυξήσεις στην απόδοση συμπερασμάτων όσον αφορά τον χρόνο GPU, Παράμετροι, και flops έχουν νόημα, αλλά κυρίως ως αποτέλεσμα των οικονομικών τους επιπτώσεων παρά ως αποτέλεσμα της επίδρασής τους στη μελλοντική ερευνητική πρόοδο. Shufflenet πέτυχε απόδοση σε επίπεδο AlexNet με 18x αύξηση της απόδοσης συμπερασμάτων σε 5 χρόνια (χρόνος διπλασιασμού 15 μηνών), γεγονός που υποδηλώνει ότι η αποτελεσματικότητα της εκπαίδευσης και η αποτελεσματικότητα συμπερασμάτων ενδέχεται να βελτιωθούν με παρόμοιους ρυθμούς. Η δημιουργία συνόλων δεδομένων/περιβαλλόντων/σημείων αναφοράς είναι μια ισχυρή μέθοδος για να γίνουν πιο μετρήσιμες συγκεκριμένες δυνατότητες τεχνητής νοημοσύνης που ενδιαφέρουν.

Πρωταρχικοί περιορισμοί

Έχουμε μόνο έναν μικρό αριθμό σημείων δεδομένων αλγοριθμικής απόδοσης για μερικές εργασίες. Δεν είναι σαφές ο βαθμός στον οποίο οι τάσεις απόδοσης που έχουμε παρατηρήσει γενικεύονται σε άλλες εργασίες τεχνητής νοημοσύνης. Η συστηματική μέτρηση θα μπορούσε να καταστήσει σαφές εάν υπάρχει αλγοριθμικό ισοδύναμο με τον νόμο του Moore στον τομέα της τεχνητής νοημοσύνης και, εάν υπάρχει, να διευκρινίσει τη φύση του. Θεωρούμε ότι αυτό είναι μια εξαιρετικά ενδιαφέρουσα ανοιχτή ερώτηση. Υποψιαζόμαστε ότι είναι πιο πιθανό να παρατηρήσουμε παρόμοια ποσοστά προόδου αποτελεσματικότητας σε παρόμοιες εργασίες. Με τον όρο παρόμοιες εργασίες, εννοούμε εργασίες εντός αυτών των υποτομέων της τεχνητής νοημοσύνης, για τις οποίες το πεδίο συμφωνεί ότι έχουμε δει σημαντική πρόοδο και έχουν συγκρίσιμα επίπεδα επένδυσης (υπολογισμός και/ή χρόνος ερευνητή).
Παρόλο που πιστεύουμε ότι το AlexNet αντιπροσώπευε μεγάλη πρόοδο, αυτή η ανάλυση δεν προσπαθεί να ποσοτικοποιήσει αυτήν την πρόοδο. Γενικότερα, την πρώτη φορά που δημιουργείται μια ικανότητα, οι αλγοριθμικές ανακαλύψεις μπορεί να έχουν μειώσει τους απαιτούμενους πόρους από εντελώς ανέφικτους σε απλώς υψηλούς. Πιστεύουμε ότι οι νέες δυνατότητες αντιπροσωπεύουν γενικά μεγαλύτερο μερίδιο της συνολικής εννοιολογικής προόδου από τις παρατηρούμενες αυξήσεις απόδοσης του τύπου που φαίνεται εδώ.
Αυτή η ανάλυση εστιάζει στο τελικό κόστος εκτέλεσης εκπαίδευσης για ένα βελτιστοποιημένο μοντέλο και όχι στο συνολικό κόστος ανάπτυξης. Ορισμένες αλγοριθμικές βελτιώσεις διευκολύνουν την εκπαίδευση ενός μοντέλου κάνοντας πολύ μεγαλύτερο τον χώρο των υπερπαραμέτρων που θα εκπαιδεύονται σταθερά και θα έχουν καλή τελική απόδοση. Από την άλλη πλευρά, οι αναζητήσεις αρχιτεκτονικής αυξάνουν το χάσμα μεταξύ του τελικού κόστους εκτέλεσης της εκπαίδευσης και του συνολικού κόστους εκπαίδευσης.
Δεν κάνουμε εικασίες σχετικά με τον βαθμό στον οποίο αναμένουμε ότι οι τάσεις της αποδοτικότητας θα επεκταθούν με την πάροδο του χρόνου, απλώς παρουσιάζουμε τα αποτελέσματά μας και συζητάμε τις επιπτώσεις εάν οι τάσεις επιμείνουν.

Πολιτική μέτρησης και τεχνητής νοημοσύνης

Πιστεύουμε ότι η χάραξη πολιτικής που σχετίζεται με την τεχνητή νοημοσύνη θα βελτιωθεί με μεγαλύτερη εστίαση στη μέτρηση και την αξιολόγηση των συστημάτων τεχνητής νοημοσύνης, τόσο όσον αφορά τα τεχνικά χαρακτηριστικά όσο και τον κοινωνικό αντίκτυπο. Πιστεύουμε ότι τέτοιες πρωτοβουλίες μέτρησης μπορούν να ρίξουν φως σε σημαντικά ζητήματα της πολιτικής. AI και Υπολογισμός μας Η ανάλυση υποδηλώνει ότι οι υπεύθυνοι χάραξης πολιτικής θα πρέπει να αυξήσουν τη χρηματοδότηση για υπολογιστικούς πόρους για τον ακαδημαϊκό χώρο, έτσι ώστε η ακαδημαϊκή έρευνα να μπορεί να αναπαράγει, να αναπαράγει και να επεκτείνει τη βιομηχανική έρευνα. Αυτή η ανάλυση αποτελεσματικότητας υποδηλώνει ότι οι υπεύθυνοι χάραξης πολιτικής θα μπορούσαν να αναπτύξουν ακριβείς διαισθήσεις σχετικά με το κόστος ανάπτυξης των δυνατοτήτων τεχνητής νοημοσύνης - και πώς αυτά τα κόστη πρόκειται να αλλάξουν με την πάροδο του χρόνου - αξιολογώντας πιο προσεκτικά το ποσοστό βελτιώσεων στην αποτελεσματικότητα των συστημάτων τεχνητής νοημοσύνης.

Παρακολούθηση της αποτελεσματικότητας στο μέλλον

Εάν ο υπολογισμός μεγάλης κλίμακας εξακολουθεί να είναι σημαντικός για την επίτευξη συνολικής απόδοσης αιχμής (SOTA) σε τομείς όπως η γλώσσα και τα παιχνίδια, τότε είναι σημαντικό να καταβάλετε προσπάθεια για τη μέτρηση της αξιοσημείωτης προόδου που επιτυγχάνεται με μικρότερους όγκους υπολογισμού (συνεισφορές που συχνά γίνονται από ακαδημαϊκά ιδρύματα). Τα μοντέλα που επιτυγχάνουν την αποτελεσματικότητα της προπόνησης, η τελευταία λέξη της τεχνολογίας σε σημαντικές ικανότητες είναι πολλά υποσχόμενα υποψήφια για κλιμάκωση και δυνητικά επίτευξη συνολικής κορυφαίας απόδοσης. Επιπλέον, ο υπολογισμός των βελτιώσεων αλγοριθμικής απόδοσης είναι απλός, καθώς αποτελούν απλώς ένα ιδιαίτερα σημαντικό κομμάτι των καμπυλών μάθησης που δημιουργούν όλα τα πειράματα.

Πιστεύουμε επίσης ότι η μέτρηση των μακροπρόθεσμων τάσεων στα SOTA απόδοσης θα βοηθήσει να σχηματιστεί μια ποσοτική εικόνα της συνολικής αλγοριθμικής προόδου. Παρατηρούμε ότι τα κέρδη από το υλικό και την αλγοριθμική απόδοση είναι πολλαπλασιαστικά και μπορούν να είναι σε παρόμοια κλίμακα σε σημαντικούς ορίζοντες, γεγονός που υποδηλώνει ότι ένα καλό μοντέλο προόδου της τεχνητής νοημοσύνης θα πρέπει να ενσωματώνει μέτρα και από τα δύο.

Τα αποτελέσματά μας υποδηλώνουν ότι για εργασίες τεχνητής νοημοσύνης με υψηλά επίπεδα επένδυσης (χρόνος ερευνητή ή/και υπολογισμός) η αλγοριθμική απόδοση μπορεί να ξεπεράσει τα κέρδη από την αποδοτικότητα του υλικού (νόμος του Moore). Ο νόμος του Moore επινοήθηκε το 1965 όταν τα ολοκληρωμένα κυκλώματα είχαν μόλις 64 τρανζίστορ (6 διπλασιασμούς) και με αφέλεια παρέκτασή του σε προβλεπόμενους προσωπικούς υπολογιστές και smartphone (ένα iPhone 11 έχει 8.5 δισεκατομμύρια τρανζίστορ). Αν παρατηρήσουμε δεκαετίες εκθετικής βελτίωσης στην αλγοριθμική απόδοση της τεχνητής νοημοσύνης, σε τι μπορεί να οδηγήσει; Δεν είμαστε σίγουροι. Το ότι αυτά τα αποτελέσματα μας κάνουν να κάνουμε αυτή την ερώτηση είναι μια μέτρια ενημέρωση για εμάς προς ένα μέλλον με ισχυρές υπηρεσίες και τεχνολογία AI.

Για όλους αυτούς τους λόγους, θα αρχίσουμε να παρακολουθούμε δημόσια τα SOTA απόδοσης. Θα ξεκινήσουμε με δείκτες αξιολόγησης απόδοσης όρασης και μετάφρασης (ImageNet και WMT14) και θα εξετάσουμε το ενδεχόμενο να προσθέσουμε περισσότερα σημεία αναφοράς με την πάροδο του χρόνου. Πιστεύουμε ότι υπάρχουν SOTA αποτελεσματικότητας σε αυτά τα σημεία αναφοράς που αγνοούμε και ενθαρρύνουμε την ερευνητική κοινότητα να υποβάλετέ τα εδώ (θα αποδώσουμε τα εύσημα σε αρχικούς συγγραφείς και συνεργάτες).

Οι ηγέτες του κλάδου, οι υπεύθυνοι χάραξης πολιτικής, οι οικονομολόγοι και οι πιθανοί ερευνητές προσπαθούν να κατανοήσουν καλύτερα την πρόοδο της τεχνητής νοημοσύνης και να αποφασίσουν πόση προσοχή πρέπει να επενδύσουν και πού να την κατευθύνουν. Οι προσπάθειες μέτρησης μπορούν να βοηθήσουν στη θεμελίωση τέτοιων αποφάσεων. Εάν ενδιαφέρεστε για αυτό το είδος εργασίας, σκεφτείτε να κάνετε αίτηση να εργαστείτε στην ομάδα Προοπτικής Διερεύνησης ή Πολιτικής του OpenAI!

Πηγή: https://openai.com/blog/ai-and-efficiency/

Σφραγίδα ώρας: 5 Μαΐου 2020