ゼロショット学習、説明

ゼロショット学習、説明

ソースノード: 1776319

ゼロショット学習、説明
ブルース・ウォリントン Unsplash経由
 

一般に、機械学習モデルがよりスマートになっている理由は、XNUMX つの類似したオブジェクトを区別するためにラベル付きデータを使用することに依存しているためです。 

ただし、これらのラベル付けされたデータセットがないと、最も効果的で信頼できる機械学習モデルを作成する際に大きな障害が発生します。 モデルのトレーニング フェーズ中にラベル付けされたデータセットは重要です。 

ディープ ラーニングは、教師あり学習を使用したコンピューター ビジョンなどのタスクを解決するために広く使用されています。 ただし、人生の多くのことと同様に、制限が伴います。 教師付き分類では、堅牢なモデルを作成するために、大量かつ高品質のラベル付きトレーニング データが必要です。 これは、分類モデルが目に見えないクラスを処理できないことを意味します。 

そして、ディープ ラーニング モデルをトレーニングするには、計算能力、再トレーニング、時間、および費用がどれだけかかるかを誰もが知っています。

しかし、トレーニング データを使用しなくても、モデルは XNUMX つのオブジェクトを区別できますか? はい、それはゼロショット学習と呼ばれます。 ゼロショット学習とは、トレーニング例を受け取ったり使用したりしなくてもタスクを完了できるモデルの能力です。 

人間は自然に、多くの努力をしなくてもゼロショット学習が可能です。私たちの脳はすでに辞書を保存しており、現在の知識ベースにより、物理的特性を見てオブジェクトを区別することができます。 この知識ベースを使用して、オブジェクト間の類似点と相違点を確認し、それらの間のリンクを見つけることができます。

たとえば、動物種の分類モデルを構築しようとしているとしましょう。 によると 私たちの世界のデータ、2.13 年には 2021 万の種が計算されました。したがって、動物種の最も効果的な分類モデルを作成したい場合、2.13 万の異なるクラスが必要になります。 また、大量のデータが必要になります。 大量かつ高品質のデータを見つけるのは困難です。

では、ゼロショット学習はこの問題をどのように解決するのでしょうか?

ゼロ ショット学習では、モデルがトレーニング データとクラスの分類方法を学習している必要がないため、ラベル付きデータに対するモデルの必要性への依存度を下げることができます。 

以下は、ゼロショット学習を進めるために必要なデータの構成です。

見たクラス

これは、モデルのトレーニングに以前に使用されたデータ クラスで構成されます。 

見えないクラス

これは、モデルのトレーニングに使用されていないデータ クラスで構成され、新しいゼロ ショット学習モデルが一般化されます。 

補助情報

目に見えないクラスのデータにはラベルが付けられていないため、ゼロショット学習では、学習して相関、リンク、およびプロパティを見つけるために補助情報が必要になります。 これは、単語の埋め込み、説明、およびセマンティック情報の形式である場合があります。

ゼロショット学習法

ゼロショット学習は通常、次の場合に使用されます。

  • 分類子ベースの方法
  • インスタンスベースの方法

インターンシップ

ゼロショット学習は、ラベル付きデータを使用してトレーニングしないクラスのモデルを構築するために使用されるため、次の XNUMX つの段階が必要です。

1。 トレーニング

トレーニング段階は、データの品質について可能な限り多くの知識を取得しようとする学習方法のプロセスです。 これを学習フェーズと見なすことができます。 

2. 推論

推論段階では、トレーニング段階で学習したすべての知識が適用され、例を新しいクラスのセットに分類するために利用されます。 これを予測段階と見なすことができます。 

それがどのように動作しますか?

目に見えるクラスからの知識は、高次元のベクトル空間で目に見えないクラスに転送されます。 これは意味空間と呼ばれます。 たとえば、画像分類では、意味空間と画像は次の XNUMX つのステップを経ます。

1.関節埋め込みスペース

これは、セマンティック ベクトルと視覚的特徴のベクトルが投影される場所です。 

2.最高の類似性

これは、機能が目に見えないクラスの機能と照合される場所です。 

XNUMX つの段階 (トレーニングと推論) のプロセスを理解するために、それらを画像分類の使用に適用してみましょう。

トレーニング

ゼロショット学習、説明
ヤリ・ハイトネン Unsplash経由
 

人間として、上の画像の右側のテキストを読むと、茶色のバスケットに 4 匹の子猫がいるとすぐに思いつくでしょう。 しかし、「子猫」が何であるかわからないとしましょう。 「子猫」と呼ばれる 4 つの物が入った茶色のバスケットがあると仮定します。 「子猫」のように見える何かを含む画像に出くわすと、「子猫」を他の動物と区別できるようになります。 

使うとこうなる 対照的な言語イメージの事前トレーニング (CLIP) 画像分類におけるゼロショット学習のための OpenAI による。 これは補助情報として知られています。 

「これは単なるラベル付けされたデータだ」と考えているかもしれません。 あなたがそう思う理由は理解できますが、そうではありません。 補助情報はデータのラベルではなく、モデルがトレーニング段階で学習するのを助けるための監視の一形態です。

ゼロショット学習モデルが十分な量の画像とテキストのペアリングを確認すると、フレーズを区別して理解し、フレーズが画像内の特定のパターンとどのように相関するかを理解できるようになります。 CLIP 手法の「対照学習」を使用して、ゼロショット学習モデルは、分類タスクの予測を行うための優れた知識ベースを蓄積することができました。 

これは、(画像、テキスト) トレーニング例のバッチの正しい組み合わせを予測するために、画像エンコーダーとテキスト エンコーダーを一緒にトレーニングする CLIP アプローチの概要です。 以下の画像をご覧ください。

 

ゼロショット学習、説明
自然言語教師からの伝達可能な視覚モデルの学習

推論

モデルがトレーニング段階を通過すると、画像とテキストのペアリングに関する優れた知識ベースが得られ、予測に使用できるようになります。 しかし、予測を行う前に、モデルが出力できる可能性のあるすべてのラベルのリストを作成して、分類タスクを設定する必要があります。 

たとえば、動物種の画像分類タスクに固執すると、すべての動物種のリストが必要になります。 これらのラベルのそれぞれがエンコードされます。T? Tに? トレーニング段階で発生した事前トレーニング済みのテキスト エンコーダーを使用します。 

ラベルがエンコードされると、事前トレーニング済みの画像エンコーダーを介して画像を入力できます。 距離計量コサイン類似度を使用して、画像エンコーディングと各テキスト ラベル エンコーディング間の類似度を計算します。

画像の分類は、画像との類似性が最も高いラベルに基づいて行われます。 これが、特に画像分類において、ゼロショット学習が達成される方法です。 

データの不足

前述のように、大量かつ高品質のデータを手に入れるのは困難です。 ゼロショット学習能力をすでに持っている人間とは異なり、機械は入力ラベル付きデータを学習して、自然に発生する可能性のある差異に適応できるようにする必要があります。 

動物種の例を見ると、非常に多くありました。 また、さまざまな分野でカテゴリの数が増え続けているため、注釈付きデータの収集に追いつくには多くの作業が必要になります。

このため、ゼロショット学習は私たちにとってより価値のあるものになりました。 利用可能なデータの不足を補うために、自動属性認識に関心を持つ研究者がますます増えています。 

データのラベル付け

ゼロショット学習のもう XNUMX つの利点は、データのラベル付けのプロパティです。 データのラベル付けは手間がかかり、非常に面倒な作業になる可能性があり、そのためプロセス中にエラーが発生する可能性があります。 データのラベル付けには、非常に費用と時間がかかる生物医学データセットに取り組んでいる医療専門家などの専門家が必要です。 

上記のデータの制限により、ゼロショット学習が一般的になりつつあります。 その能力に興味がある場合は、読むことをお勧めする論文がいくつかあります。

 
 
ニシャ・アリア データサイエンティスト兼フリーランステクニカルライターです。 彼女は特に、データサイエンスのキャリアに関するアドバイスやチュートリアル、およびデータサイエンスに関する理論に基づく知識の提供に関心を持っています。 彼女はまた、人工知能が人間の寿命の長寿に役立つ/できるさまざまな方法を探求したいと考えています。 他の人を導くのを助けながら、彼女の技術知識とライティングスキルを広げることを求めている熱心な学習者。
 

タイムスタンプ:

より多くの KDナゲット