Метадослідники створюють штучний інтелект, який однаково добре навчається з візуальних, письмових чи усних матеріалів

Вихідний вузол: 1590449

Удосконалення в області штучного інтелекту постійно з’являються, але вони, як правило, обмежуються одним доменом: наприклад, новий класний метод створення синтетичного мовлення не Також спосіб розпізнавання виразів людських облич. Дослідники Meta (також відомої як Facebook) працюють над чимось більш універсальним: штучним інтелектом, який здатний навчатися сам по собі, незалежно від того, чи робить він це в усних, письмових чи візуальних матеріалах.

Традиційний спосіб навчити модель ШІ правильно інтерпретувати щось полягає в тому, щоб надати їй багато-багато (наприклад, мільйони) позначених прикладів. Зображення кота з позначеною частиною кота, розмова з мовцями та транскрибовані слова тощо. Але цей підхід уже не в моді, оскільки дослідники виявили, що більше неможливо вручну створювати бази даних розмірів, необхідних для наступного навчання ШІ покоління. Хто хоче позначити 50 мільйонів фотографій котів? Гаразд, мабуть, кілька людей, але хто хоче позначати 50 мільйонів фотографій звичайних фруктів і овочів?

На даний момент деякі з найперспективніших систем штучного інтелекту — це так звані системи самонагляду: моделі, які можуть працювати з великою кількістю немаркованих даних, як-от книги чи відео взаємодії людей, і будувати власне структуроване розуміння правил системи. Наприклад, прочитавши тисячу книжок, він дізнається відносне положення слів і ідей про граматичну структуру, не повідомляючи йому, що таке об’єкти, артиклі чи коми — він отримав це, зробивши висновки з багатьох прикладів.

Інтуїтивно здається, що це більше схоже на те, як люди навчаються, і тому це подобається дослідникам. Але моделі, як і раніше, мають тенденцію бути одномодальними, і вся робота, яку ви виконуєте, щоб налаштувати систему напівконтрольованого навчання для розпізнавання мовлення, взагалі не застосовуватиметься до аналізу зображень — вони просто надто різні. Ось де останнє дослідження Facebook/Meta, з яскравою назвою data2vec, заходить.

Ідея data2vec полягала в тому, щоб створити структуру штучного інтелекту, яка б навчалася більш абстрактно, тобто починаючи з нуля, ви могли б давати їй книги для читання, зображення для сканування чи мовлення для озвучування, і після невеликого навчання він би навчитися будь-якому з цих речей. Це схоже на те, щоб почати з одного насіння, але залежно від того, яку рослинну їжу ви йому даєте, воно виростає в нарцис, братки або тюльпан.

Тестування data2vec після навчання на різних масивах даних показало, що він конкурентоспроможний і навіть перевершує спеціалізовані моделі аналогічного розміру для цього модальності. (Тобто, якщо всі моделі обмежені 100 мегабайтами, data2vec виявився кращим — спеціалізовані моделі, ймовірно, все одно перевершали б його, коли вони зростали.)

«Основна ідея цього підходу полягає в тому, щоб навчатися в більш загальному плані: штучний інтелект повинен мати можливість навчитися виконувати багато різних завдань, у тому числі ті, які абсолютно незнайомі», написала команда в дописі в блозі. «Ми також сподіваємося, що data2vec наблизить нас до світу, де комп’ютерам для виконання завдань потрібно дуже мало позначених даних».

«Люди сприймають світ за допомогою поєднання зображення, звуку та слів, і подібні системи одного разу зможуть розуміти світ так, як це робимо ми», — прокоментував дослідження генеральний директор Марк Цукерберг.

Це все ще початкова стадія дослідження, тому не очікуйте, що легендарний «загальний ШІ» з’явиться раптово, але мати ШІ з узагальненою структурою навчання, яка працює з різноманітними доменами та типами даних, виглядає краще, більш елегантне рішення, ніж фрагментований набір мікроінтелекту, з яким ми обходимося сьогодні.

Код для data2vec є відкритим; він і деякі попередньо підготовлені моделі доступні тут.

Джерело: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Часова мітка:

Більше від Techcrunch