Οι ερευνητές Meta κατασκευάζουν ένα AI που μαθαίνει εξίσου καλά από οπτικό, γραπτό ή προφορικό υλικό

Κόμβος πηγής: 1590449

Οι πρόοδοι στον τομέα της τεχνητής νοημοσύνης εμφανίζονται συνεχώς, αλλά τείνουν να περιορίζονται σε έναν μόνο τομέα: Για παράδειγμα, μια νέα νέα μέθοδος για την παραγωγή συνθετικής ομιλίας δεν είναι Επίσης ένας τρόπος αναγνώρισης εκφράσεων στα ανθρώπινα πρόσωπα. Οι ερευνητές της Meta (AKA Facebook) εργάζονται σε κάτι λίγο πιο ευέλικτο: μια τεχνητή νοημοσύνη που μπορεί να μάθει ικανά από μόνη της είτε το κάνει σε προφορικό, γραπτό ή οπτικό υλικό.

Ο παραδοσιακός τρόπος εκπαίδευσης ενός μοντέλου τεχνητής νοημοσύνης ώστε να ερμηνεύει σωστά κάτι είναι να του δίνουμε πολλά και πολλά (όπως εκατομμύρια) παραδείγματα με ετικέτα. Μια εικόνα μιας γάτας με το μέρος της γάτας επισημασμένο, μια συνομιλία με τους ομιλητές και λέξεις μεταγραμμένες, κ.λπ. Αλλά αυτή η προσέγγιση δεν είναι πλέον της μόδας καθώς οι ερευνητές διαπίστωσαν ότι δεν ήταν πλέον εφικτό να δημιουργήσουν με μη αυτόματο τρόπο βάσεις δεδομένων με τα μεγέθη που απαιτούνται για την επόμενη εκπαίδευση -gen AI. Ποιος θέλει να επισημάνει 50 εκατομμύρια φωτογραφίες γατών; Εντάξει, λίγοι άνθρωποι πιθανώς — αλλά ποιος θέλει να επισημάνει 50 εκατομμύρια φωτογραφίες κοινών φρούτων και λαχανικών;

Επί του παρόντος, μερικά από τα πιο πολλά υποσχόμενα συστήματα τεχνητής νοημοσύνης είναι αυτά που ονομάζονται αυτο-εποπτευόμενα: μοντέλα που μπορούν να λειτουργήσουν από μεγάλες ποσότητες δεδομένων χωρίς ετικέτα, όπως βιβλία ή βίντεο με ανθρώπους που αλληλεπιδρούν, και να δημιουργήσουν τη δική τους δομημένη κατανόηση για το ποιοι είναι οι κανόνες του συστήματος. Για παράδειγμα, διαβάζοντας χίλια βιβλία θα μάθει τις σχετικές θέσεις των λέξεων και των ιδεών σχετικά με τη γραμματική δομή, χωρίς κανείς να του λέει τι είναι τα αντικείμενα ή τα άρθρα ή τα κόμματα — το πήρε αντλώντας συμπεράσματα από πολλά παραδείγματα.

Αυτό μοιάζει διαισθητικά περισσότερο με το πώς μαθαίνουν οι άνθρωποι, κάτι που είναι μέρος του γιατί αρέσει στους ερευνητές. Αλλά τα μοντέλα εξακολουθούν να τείνουν να είναι μονοτροπικά και όλη η δουλειά που κάνετε για να δημιουργήσετε ένα ημι-εποπτευόμενο σύστημα εκμάθησης για την αναγνώριση ομιλίας δεν θα ισχύει καθόλου για την ανάλυση εικόνας — είναι απλώς πολύ διαφορετικά. Εκεί είναι η τελευταία έρευνα του Facebook/Meta, το πιασάρικα όνομα data2vec, Έρχεται σε.

Η ιδέα για το data2vec ήταν να δημιουργήσει ένα πλαίσιο τεχνητής νοημοσύνης που θα μάθαινε με πιο αφηρημένο τρόπο, που σημαίνει ότι ξεκινώντας από το μηδέν, θα μπορούσατε να του δώσετε βιβλία για ανάγνωση ή εικόνες για σάρωση ή ομιλία για να ακούγεται και μετά από λίγη εκπαίδευση. μάθετε κάποιο από αυτά τα πράγματα. Είναι λίγο σαν να ξεκινάς με έναν μόνο σπόρο, αλλά ανάλογα με τη φυτική τροφή που του δίνεις, μεγαλώνει σε ασφόδελο, πανσέ ή τουλίπα.

Η δοκιμή του data2vec αφού το άφησε να εκπαιδεύεται σε διάφορα corpi δεδομένων έδειξε ότι ήταν ανταγωνιστικό και μάλιστα ξεπέρασε σε απόδοση παρόμοιου μεγέθους αποκλειστικά μοντέλα για αυτόν τον τρόπο. (Δηλαδή, εάν όλα τα μοντέλα περιορίζονται στα 100 megabyte, το data2vec τα πήγε καλύτερα — τα εξειδικευμένα μοντέλα θα εξακολουθούσαν να έχουν πιθανώς καλύτερη απόδοση καθώς μεγαλώνουν.)

«Η βασική ιδέα αυτής της προσέγγισης είναι να μάθουμε γενικότερα: η τεχνητή νοημοσύνη θα πρέπει να μπορεί να μάθει να κάνει πολλές διαφορετικές εργασίες, συμπεριλαμβανομένων εκείνων που είναι εντελώς άγνωστες». έγραψε η ομάδα σε μια ανάρτηση στο blog. «Ελπίζουμε επίσης ότι το data2vec θα μας φέρει πιο κοντά σε έναν κόσμο όπου οι υπολογιστές χρειάζονται πολύ λίγα δεδομένα με ετικέτα για να ολοκληρώσουν εργασίες».

«Οι άνθρωποι βιώνουν τον κόσμο μέσω ενός συνδυασμού όρασης, ήχου και λέξεων, και συστήματα όπως αυτό θα μπορούσαν κάποια μέρα να κατανοήσουν τον κόσμο όπως εμείς», σχολίασε ο διευθύνων σύμβουλος Mark Zuckerberg στην έρευνα.

Αυτή είναι ακόμα έρευνα πρώιμου σταδίου, οπότε μην περιμένετε να εμφανιστεί ξαφνικά η θρυλική «γενική τεχνητή νοημοσύνη» — αλλά το να έχετε μια τεχνητή νοημοσύνη που έχει μια γενικευμένη δομή μάθησης που λειτουργεί με διάφορους τομείς και τύπους δεδομένων φαίνεται καλύτερο, πιο κομψή λύση από το κατακερματισμένο σύνολο μικρο-νοημοσύνης που τα καταφέρνουμε σήμερα.

Ο κώδικας για το data2vec είναι ανοιχτού κώδικα. αυτό και μερικά προεκπαιδευμένα μοντέλα είναι διαθέσιμα εδώ.

Πηγή: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Σφραγίδα ώρας:

Περισσότερα από TechCrunch