Мета-исследователи создают ИИ, который одинаково хорошо учится на визуальных, письменных и устных материалах.

Исходный узел: 1590449

Достижения в области искусственного интеллекта появляются постоянно, но они, как правило, ограничиваются одной областью: например, новый крутой метод создания синтетической речи не Также способ распознавать выражения на человеческих лицах. Мета-исследователи (также известные как Facebook) работают над чем-то более универсальным: ИИ, который может самостоятельно обучаться, независимо от того, делает ли он это в устных, письменных или визуальных материалах.

Традиционный способ научить модель ИИ правильно интерпретировать что-либо — предоставить ей множество (например, миллионы) помеченных примеров. Изображение кошки с помеченной частью кошки, разговор с говорящими, расшифровка слов и т. д. Но этот подход больше не в моде, поскольку исследователи обнаружили, что больше невозможно вручную создавать базы данных размеров, необходимых для следующего обучения. -поколение ИИ. Кто хочет маркировать 50 миллионов фотографий кошек? Хорошо, возможно, несколько человек — но кто захочет маркировать 50 миллионов фотографий обычных фруктов и овощей?

В настоящее время одними из наиболее многообещающих систем ИИ являются так называемые модели с самоконтролем: модели, которые могут работать с большими объемами неразмеченных данных, таких как книги или видео взаимодействующих людей, и выстраивать собственное структурированное понимание того, каковы правила системы. Например, прочитав тысячу книг, он выучит относительное положение слов и идей о грамматической структуре, и никто не расскажет ему, что такое объекты, артикли или запятые — он получил это, сделав выводы из множества примеров.

Интуитивно это больше похоже на то, как люди учатся, и это одна из причин, почему это нравится исследователям. Но модели по-прежнему имеют тенденцию быть одномодальными, и вся работа, которую вы проделываете по созданию полуконтролируемой системы обучения распознаванию речи, вообще не применима к анализу изображений — они просто слишком разные. Вот где последнее исследование Facebook/Meta, запоминающееся имя data2vec, приходит в.

Идея data2vec заключалась в том, чтобы создать структуру искусственного интеллекта, которая бы обучалась более абстрактным способом, то есть, начиная с нуля, вы могли бы давать ему книги для чтения, изображения для сканирования или речь для озвучивания, и после небольшого обучения он будет научитесь любой из этих вещей. Это немного похоже на то, как если бы вы начали с одного семени, но в зависимости от того, какую растительную пищу вы ему даете, оно вырастает в нарцисс, анютины глазки или тюльпан.

Тестирование data2vec после обучения на различных корпусах данных показало, что он конкурентоспособен и даже превосходит специализированные модели аналогичного размера для этой модальности. (То есть, если бы размер всех моделей был ограничен 100 мегабайтами, data2vec справился бы лучше — специализированные модели, вероятно, все равно будут превосходить его по мере своего роста.)

«Основная идея этого подхода заключается в обучении в более широком смысле: ИИ должен быть способен научиться выполнять множество различных задач, в том числе совершенно незнакомых». написала команда в сообщении в блоге. «Мы также надеемся, что data2vec приблизит нас к миру, где компьютерам для выполнения задач требуется очень мало размеченных данных».

«Люди познают мир посредством сочетания зрения, звука и слов, и подобные системы однажды смогут понимать мир так, как мы», — прокомментировал исследование генеральный директор Марк Цукерберг.

Это все еще ранняя стадия исследования, поэтому не ожидайте внезапного появления легендарного «общего ИИ» — но лучше иметь ИИ, имеющий обобщенную структуру обучения, которая работает с различными областями и типами данных. более элегантное решение, чем фрагментированный набор микроразумов, которым мы пользуемся сегодня.

Код data2vec имеет открытый исходный код; он и некоторые предварительно обученные модели доступны здесь..

Источник: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-writing-or-spoken-materials/

Отметка времени:

Больше от Techcrunch