Metabadacze budują sztuczną inteligencję, która równie dobrze uczy się z materiałów wizualnych, pisanych i mówionych

Węzeł źródłowy: 1590449

Postępy w dziedzinie sztucznej inteligencji stale pojawiają się, ale zwykle ograniczają się do jednej domeny: na przykład nowa, fajna metoda wytwarzania mowy syntetycznej nie jest również sposób rozpoznawania wyrazu ludzkich twarzy. Badacze Meta (znani również jako Facebook) pracują nad czymś nieco bardziej wszechstronnym: sztuczną inteligencją, która może samodzielnie uczyć się, niezależnie od tego, czy robi to za pomocą materiałów mówionych, pisanych czy wizualnych.

Tradycyjny sposób uczenia modelu sztucznej inteligencji w celu prawidłowej interpretacji czegoś polega na zapewnieniu mu dużej liczby (na przykład milionów) oznaczonych przykładów. Zdjęcie kota z oznaczoną częścią kota, rozmowa z mówcami i przepisane słowa itp. Jednak takie podejście nie jest już w modzie, ponieważ naukowcy odkryli, że ręczne tworzenie baz danych o rozmiarach potrzebnych do następnego szkolenia nie jest już wykonalne -gen AI. Kto chce oznaczyć etykietą 50 milionów zdjęć kotów? No dobrze, pewnie kilka osób – ale kto chce opatrzyć etykietą 50 milionów zdjęć pospolitych owoców i warzyw?

Obecnie niektóre z najbardziej obiecujących systemów sztucznej inteligencji to tak zwane samonadzorowane: modele, które mogą pracować na podstawie dużych ilości nieoznaczonych danych, takich jak książki lub filmy wideo przedstawiające interakcje między ludźmi, i budować własne, uporządkowane zrozumienie zasad obowiązujących w systemie. Na przykład, czytając tysiąc książek, nauczy się względnego położenia słów i pojęć dotyczących struktury gramatycznej, nie mówiąc mu, czym są dopełnienia, przedimki czy przecinki — udało mu się to poprzez wyciągnięcie wniosków z wielu przykładów.

Intuicyjnie bardziej przypomina to sposób, w jaki ludzie się uczą, i dlatego badacze to lubią. Jednak modele w dalszym ciągu są zazwyczaj jednomodalne, a cała praca włożona w stworzenie systemu uczenia się z częściowo nadzorowanym systemem rozpoznawania mowy nie będzie miała zastosowania w przypadku analizy obrazu — są po prostu zbyt różne. To właśnie tam najnowsze badania Facebooka/Mety, chwytliwie nazwany data2vec, wchodzi.

Pomysł na data2vec polegał na zbudowaniu frameworku AI, który uczyłby się w bardziej abstrakcyjny sposób, co oznacza, że ​​zaczynając od zera, możesz dać mu książki do przeczytania lub obrazy do zeskanowania lub mowę do wygłoszenia, a po krótkim szkoleniu nauczyć się którejkolwiek z tych rzeczy. To trochę jak zaczynanie od pojedynczego nasionka, ale w zależności od tego, jaki pokarm roślinny mu podasz, wyrasta na żonkila, bratka lub tulipana.

Testowanie data2vec po umożliwieniu mu trenowania na różnych korpusach danych wykazało, że jest ono konkurencyjne, a nawet lepsze od dedykowanych modeli o podobnej wielkości dla tej modalności. (Oznacza to, że jeśli wszystkie modele są ograniczone do 100 megabajtów, data2vec radzi sobie lepiej — wyspecjalizowane modele prawdopodobnie nadal będą go przewyższać w miarę ich rozwoju.)

„Podstawową ideą tego podejścia jest uczenie się w sposób bardziej ogólny: sztuczna inteligencja powinna być w stanie nauczyć się wykonywania wielu różnych zadań, w tym tych całkowicie nieznanych” – napisał zespół w poście na blogu. „Mamy również nadzieję, że data2vec przybliży nas do świata, w którym komputery potrzebują bardzo niewielu oznakowanych danych, aby wykonać zadania”.

„Ludzie doświadczają świata poprzez połączenie wzroku, dźwięku i słów, a tego typu systemy pewnego dnia będą mogły zrozumieć świat tak samo jak my” – skomentował badanie dyrektor generalny Mark Zuckerberg.

To wciąż badania na wczesnym etapie, więc nie należy się spodziewać, że legendarna „ogólna sztuczna inteligencja” pojawi się nagle — ale posiadanie sztucznej inteligencji z uogólnioną strukturą uczenia się, która działa z różnymi domenami i typami danych, wydaje się lepszym rozwiązaniem, bardziej eleganckie rozwiązanie niż fragmentaryczny zestaw mikrointeligencji, z którymi mamy do czynienia dzisiaj.

Kod data2vec jest kodem open source; to i niektóre wstępnie przeszkolone modele są dostępne tutaj.

Źródło: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-writing-or-spoken-materials/

Znak czasu:

Więcej z Techcrunch