メタ研究者が視覚資料、文書資料、または音声資料から同様によく学習する AI を構築

プラトン再発行

フォロワー： 0

AI 分野の進歩は絶えず現れていますが、それらは単一の領域に限定される傾向があります。たとえば、合成音声を生成するためのクールな新しい方法は、また人間の顔の表情を認識する方法。メタ (別名 Facebook) の研究者は、もう少し汎用性の高いもの、つまり、話し言葉、書き言葉、視覚資料のいずれで学習しても、自力で能力的に学習できる AI に取り組んでいます。

何かを正しく解釈できるように AI モデルをトレーニングする従来の方法は、ラベル付きのサンプルを大量に (数百万個など) 与えることです。猫の部分にラベルを付けた猫の写真、話者との会話や単語の転写など。しかし、次のトレーニングに必要なサイズのデータベースを手動で作成するのはもはや不可能であることが研究者らによって判明したため、このアプローチはもはや流行していません。 -世代AI。 50 万枚の猫の写真にラベルを付けたい人がいるでしょうか? まあ、おそらく数人はいるでしょうが、一般的な果物や野菜の 50 万枚の写真にラベルを付けたいと思う人がいるでしょうか?

現在、最も有望な AI システムのいくつかは、自己教師ありと呼ばれるものです。これは、書籍や対話する人々のビデオなどのラベルのない大量のデータから機能し、システムのルールが何であるかについて独自の構造化された理解を構築できるモデルです。たとえば、XNUMX冊の本を読むことで、オブジェクト、冠詞、コンマが何であるかを誰かに教えなくても、単語の相対的な位置や文法構造に関するアイデアを学習します。多くの例から推論することで学習します。

これは直感的に人間の学習方法に似ていると感じられ、これが研究者がこの方法を好む理由の XNUMX つです。しかし、モデルは依然としてシングルモーダルである傾向があり、音声認識用の半教師あり学習システムをセットアップするために行うすべての作業は、画像分析にはまったく適用されません。単純に違いすぎるのです。そこが Facebook/Meta の最新の研究です。キャッチーな名前の data2vec、入って来る。

data2vec のアイデアは、より抽象的な方法で学習する AI フレームワークを構築することでした。つまり、ゼロから始めて、読むための本、スキャンする画像、または音声を出すための音声を与えることができ、少しのトレーニング後には、それらのいずれかを学びます。それは、XNUMX つの種から始めるのと少し似ていますが、与えた植物の餌に応じて、水仙、パンジー、チューリップに成長します。

さまざまなデータコーピでトレーニングさせた後で data2vec をテストしたところ、そのモダリティの同様のサイズの専用モデルと競合し、さらにはそれを上回るパフォーマンスを示しました。 (つまり、モデルがすべて 100 メガバイトに制限されている場合、data2vec の方が優れたパフォーマンスを発揮します。特化されたモデルは、成長してもおそらく依然としてそれを上回るパフォーマンスを発揮するでしょう。)

「このアプローチの中心的な考え方は、より一般的に学習することです。AI は、まったくなじみのないタスクを含む、さまざまなタスクの実行方法を学習できる必要があります。」チームがブログ投稿に書いた。「また、data2vec によって、コンピュータがタスクを実行するためにラベル付きデータをほとんど必要としない世界に近づけることを期待しています。」

「人々は視覚、聴覚、言葉の組み合わせを通じて世界を体験していますが、このようなシステムはいつか私たちと同じように世界を理解できるようになるでしょう」とCEOのマーク・ザッカーバーグはこの研究についてコメントした。

これはまだ初期段階の研究であるため、伝説の「汎用 AI」が突然出現するとは期待しないでください。しかし、さまざまなドメインやデータ型で動作する汎用化された学習構造を持つ AI があれば、より良いように思えます。これは、今日私たちが利用している断片化されたマイクロインテリジェンスのセットよりも洗練されたソリューションです。

data2vec のコードはオープンソースです。それといくつかの事前トレーニングされたモデルはここで入手できます.

出典: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-writing-or-spoken-materials/

タイムスタンプ： 2022 年 1 月 20 日