Metaforscher bauen eine KI auf, die gleichermaßen aus visuellen, schriftlichen oder gesprochenen Materialien lernt

Quellknoten: 1590449

Fortschritte im KI-Bereich kommen ständig heraus, aber sie neigen dazu, auf einen einzigen Bereich beschränkt zu sein: Beispielsweise ist eine coole neue Methode zur Erzeugung synthetischer Sprache dies nicht ebenfalls eine Möglichkeit, Ausdrücke auf menschlichen Gesichtern zu erkennen. Meta (AKA Facebook)-Forscher arbeiten an etwas Vielseitigerem: einer KI, die selbstständig lernen kann, sei es in gesprochenem, geschriebenem oder visuellem Material.

Die traditionelle Art, ein KI-Modell zu trainieren, um etwas richtig zu interpretieren, besteht darin, ihm viele, viele (wie Millionen) beschriftete Beispiele zu geben. Ein Bild einer Katze mit beschriftetem Katzenteil, ein Gespräch mit den Sprechern und transkribierten Wörtern usw. Dieser Ansatz ist jedoch nicht mehr zeitgemäß, da Forscher herausfanden, dass es nicht mehr möglich war, Datenbanken in der für das nächste Training erforderlichen Größe manuell zu erstellen -Gen KIs. Wer will 50 Millionen Katzenbilder beschriften? Okay, ein paar Leute wahrscheinlich – aber wer will schon 50 Millionen Bilder von gewöhnlichem Obst und Gemüse beschriften?

Einige der derzeit vielversprechendsten KI-Systeme sind sogenannte selbstüberwachte Systeme: Modelle, die mit großen Mengen unbeschrifteter Daten wie Büchern oder Videos von interagierenden Personen arbeiten und ihr eigenes strukturiertes Verständnis der Regeln des Systems aufbauen können. Zum Beispiel lernt es durch das Lesen von tausend Büchern die relativen Positionen von Wörtern und Ideen über die grammatikalische Struktur, ohne dass ihm jemand sagt, was Objekte oder Artikel oder Kommas sind – es hat es durch das Ziehen von Schlussfolgerungen aus vielen Beispielen gelernt.

Das fühlt sich intuitiv eher so an, wie Menschen lernen, was einer der Gründe dafür ist, warum Forscher es mögen. Aber die Modelle neigen immer noch dazu, monomodal zu sein, und all die Arbeit, die Sie tun, um ein halbüberwachtes Lernsystem für die Spracherkennung einzurichten, gilt überhaupt nicht für die Bildanalyse – sie sind einfach zu unterschiedlich. Das ist der Punkt, an dem die neuesten Forschungsergebnisse von Facebook/Meta der eingängig benannte data2vec, kommt herein.

Die Idee für data2vec war, ein KI-Framework zu bauen, das auf abstraktere Weise lernen würde, was bedeutet, dass Sie ihm von Grund auf Bücher zum Lesen oder Bilder zum Scannen oder Sprache zum Ausloten geben könnten, und nach ein wenig Training würde es das tun etwas von diesen Dingen lernen. Es ist ein bisschen so, als würde man mit einem einzelnen Samen beginnen, aber je nachdem, welche Pflanzennahrung man ihm gibt, wächst daraus eine Narzisse, ein Stiefmütterchen oder eine Tulpe.

Das Testen von data2vec, nachdem es auf verschiedenen Datencorpi trainiert wurde, zeigte, dass es mit ähnlich großen, dedizierten Modellen für diese Modalität konkurrenzfähig war und diese sogar übertraf. (Das heißt, wenn die Modelle alle auf 100 Megabyte begrenzt sind, schnitt data2vec besser ab – spezialisierte Modelle würden es wahrscheinlich immer noch übertreffen, wenn sie wachsen.)

„Die Kernidee dieses Ansatzes ist, allgemeiner zu lernen: KI soll lernen können, viele verschiedene Aufgaben zu erledigen, auch solche, die völlig ungewohnt sind.“ schrieb das Team in einem Blogbeitrag. „Wir hoffen auch, dass data2vec uns einer Welt näher bringt, in der Computer nur sehr wenige gekennzeichnete Daten benötigen, um Aufgaben zu erfüllen.“

„Menschen erleben die Welt durch eine Kombination aus Sehen, Hören und Worten, und Systeme wie dieses könnten eines Tages die Welt so verstehen, wie wir es tun“, kommentierte CEO Mark Zuckerberg die Forschung.

Dies ist noch ein frühes Forschungsstadium, also erwarten Sie nicht, dass die sagenumwobene „allgemeine KI“ plötzlich auftaucht – aber eine KI zu haben, die eine verallgemeinerte Lernstruktur hat, die mit einer Vielzahl von Domänen und Datentypen funktioniert, scheint besser zu sein, elegantere Lösung als die fragmentierten Mikrointelligenzen, mit denen wir heute auskommen.

Der Code für data2vec ist Open Source; it und einige vortrainierte Modelle sind hier verfügbar.

Quelle: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Zeitstempel:

Mehr von Techcrunch