Zero-Shot-Lernen, erklärt

Zero-Shot-Lernen, erklärt

Quellknoten: 1776319

Zero-Shot-Lernen, erklärt
Bruce Warrington über Unsplash
 

Der Grund, warum maschinelle Lernmodelle im Allgemeinen intelligenter werden, liegt in ihrer Abhängigkeit von der Verwendung gekennzeichneter Daten, um ihnen zu helfen, zwischen zwei ähnlichen Objekten zu unterscheiden. 

Ohne diese beschrifteten Datensätze werden Sie jedoch auf große Hindernisse stoßen, wenn Sie das effektivste und vertrauenswürdigste Modell für maschinelles Lernen erstellen. Beschriftete Datensätze während der Trainingsphase eines Modells sind wichtig. 

Deep Learning wird häufig verwendet, um Aufgaben wie Computer Vision mithilfe von überwachtem Lernen zu lösen. Doch wie bei vielen Dingen im Leben gibt es auch hier Einschränkungen. Die überwachte Klassifizierung erfordert eine hohe Menge und Qualität gekennzeichneter Trainingsdaten, um ein robustes Modell zu erstellen. Das bedeutet, dass das Klassifizierungsmodell nicht mit unsichtbaren Klassen umgehen kann. 

Und wir alle wissen, wie viel Rechenleistung, Umschulung, Zeit und Geld es braucht, um ein Deep-Learning-Modell zu trainieren.

Aber kann ein Modell noch zwischen zwei Objekten unterscheiden, ohne Trainingsdaten verwendet zu haben? Ja, es heißt Zero-Shot-Lernen. Zero-Shot-Lernen ist die Fähigkeit eines Modells, eine Aufgabe zu erledigen, ohne Trainingsbeispiele erhalten oder verwendet zu haben. 

Menschen sind von Natur aus in der Lage, ohne großen Aufwand Zero-Shot-Lernen zu betreiben. Unser Gehirn speichert bereits Wörterbücher und ermöglicht es uns aufgrund unserer aktuellen Wissensbasis, Objekte anhand ihrer physikalischen Eigenschaften zu unterscheiden. Wir können diese Wissensbasis verwenden, um die Ähnlichkeiten und Unterschiede zwischen Objekten zu erkennen und die Verbindung zwischen ihnen zu finden.

Nehmen wir zum Beispiel an, wir versuchen, ein Klassifizierungsmodell für Tierarten zu erstellen. Entsprechend UnsereWeltInDaten, wurden im Jahr 2.13 2021 Millionen Arten berechnet. Wenn wir also das effektivste Klassifizierungsmodell für Tierarten erstellen wollen, bräuchten wir 2.13 Millionen verschiedene Klassen. Außerdem werden viele Daten benötigt. Hohe Quantität und Qualität von Daten sind schwer zu finden.

Wie löst Zero-Shot-Learning dieses Problem?

Da das Zero-Shot-Lernen nicht erfordert, dass das Modell die Trainingsdaten und die Klassifizierung von Klassen gelernt hat, können wir uns weniger auf den Bedarf des Modells an gekennzeichneten Daten verlassen. 

Folgendes müssen Ihre Daten enthalten, um mit dem Zero-Shot-Lernen fortzufahren.

Klassen gesehen

Diese besteht aus den Datenklassen, die zuvor zum Trainieren eines Modells verwendet wurden. 

Ungesehene Klassen

Dies besteht aus den Datenklassen, die NICHT zum Trainieren eines Modells verwendet wurden, und das neue Zero-Shot-Lernmodell wird verallgemeinert. 

Hilfsinformationen

Da die Daten in den unsichtbaren Klassen nicht gekennzeichnet sind, erfordert Zero-Shot-Lernen Hilfsinformationen, um zu lernen und Korrelationen, Verknüpfungen und Eigenschaften zu finden. Dies kann in Form von Worteinbettungen, Beschreibungen und semantischen Informationen erfolgen.

Zero-Shot-Lernmethoden

Zero-Shot-Lernen wird typischerweise verwendet in:

  • Klassifikatorbasierte Methoden
  • Instanzbasierte Methoden

Praktika

Zero-Shot-Lernen wird verwendet, um Modelle für Klassen zu erstellen, die nicht mit beschrifteten Daten trainieren, daher sind diese zwei Phasen erforderlich:

1 . Schulung

Die Trainingsphase ist der Prozess der Lernmethode, der versucht, so viel Wissen wie möglich über die Eigenschaften der Daten zu erfassen. Wir können dies als Lernphase betrachten. 

2. Schlussfolgerung

Während der Inferenzphase wird das gesamte erlernte Wissen aus der Trainingsphase angewendet und genutzt, um Beispiele in eine neue Gruppe von Klassen einzuordnen. Wir können dies als die Phase der Vorhersagen betrachten. 

Wie funktioniert es?

Das Wissen der sichtbaren Klassen wird in einem hochdimensionalen Vektorraum auf die unsichtbaren Klassen übertragen; dies wird als semantischer Raum bezeichnet. Beispielsweise wird bei der Bildklassifizierung der semantische Raum zusammen mit dem Bild zwei Schritten unterzogen:

1. Gemeinsamer Einbettungsraum

Darauf werden die semantischen Vektoren und die Vektoren des visuellen Merkmals projiziert. 

2. Höchste Ähnlichkeit

Hier werden Merkmale mit denen einer unsichtbaren Klasse abgeglichen. 

Um den Prozess mit den beiden Phasen (Training und Inferenz) besser zu verstehen, wenden wir sie auf die Verwendung der Bildklassifizierung an.

Ausbildung

Zero-Shot-Lernen, erklärt
Jari Hytönen über Unsplash
 

Wenn Sie als Mensch den Text rechts im Bild oben lesen würden, würden Sie sofort annehmen, dass sich 4 Kätzchen in einem braunen Körbchen befinden. Aber nehmen wir an, Sie haben keine Ahnung, was ein „Kätzchen“ ist. Sie werden annehmen, dass es einen braunen Korb mit 4 Dingen darin gibt, die „Kätzchen“ genannt werden. Sobald Sie auf mehr Bilder stoßen, die etwas enthalten, das wie ein „Kätzchen“ aussieht, können Sie ein „Kätzchen“ von anderen Tieren unterscheiden. 

Das passiert, wenn Sie verwenden Kontrastives Sprachbild-Vortraining (CLIP) von OpenAI für Zero-Shot-Lernen bei der Bildklassifizierung. Sie wird als Hilfsinformation bezeichnet. 

Sie denken vielleicht: „Nun, das sind nur beschriftete Daten“. Ich verstehe, warum Sie das denken würden, aber sie sind es nicht. Hilfsinformationen sind keine Etiketten der Daten, sie sind eine Form der Überwachung, um dem Modell beim Lernen während der Trainingsphase zu helfen.

Wenn ein Zero-Shot-Lernmodell eine ausreichende Menge an Bild-Text-Paarungen sieht, kann es Sätze unterscheiden und verstehen und wie sie mit bestimmten Mustern in den Bildern korrelieren. Unter Verwendung der CLIP-Technik „kontrastives Lernen“ konnte das Zero-Shot-Lernmodell eine gute Wissensbasis aufbauen, um Vorhersagen zu Klassifizierungsaufgaben treffen zu können. 

Dies ist eine Zusammenfassung des CLIP-Ansatzes, bei dem sie einen Bildcodierer und einen Textcodierer zusammen trainieren, um die korrekten Paarungen einer Reihe von (Bild-, Text-) Trainingsbeispielen vorherzusagen. Bitte sehen Sie sich das Bild unten an:

 

Zero-Shot-Lernen, erklärt
Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache

Inferenz

Sobald das Modell die Trainingsphase durchlaufen hat, verfügt es über eine gute Wissensbasis zur Bild-Text-Paarung und kann nun verwendet werden, um Vorhersagen zu treffen. Aber bevor wir mit den Vorhersagen beginnen können, müssen wir die Klassifizierungsaufgabe einrichten, indem wir eine Liste aller möglichen Labels erstellen, die das Modell ausgeben könnte. 

Wenn wir zum Beispiel bei der Aufgabe zur Bildklassifizierung von Tierarten bleiben, benötigen wir eine Liste aller Tierarten. Jedes dieser Labels wird codiert, T? zu T? Verwenden des vortrainierten Textcodierers, der in der Trainingsphase aufgetreten ist. 

Sobald die Etiketten codiert wurden, können wir Bilder über den vortrainierten Bildcodierer eingeben. Wir werden die Entfernungsmetrik-Kosinus-Ähnlichkeit verwenden, um die Ähnlichkeiten zwischen der Bildcodierung und jeder Textkennzeichnungscodierung zu berechnen.

Die Klassifizierung des Bildes erfolgt anhand des Labels mit der größten Ähnlichkeit zum Bild. Und so wird Zero-Shot-Lernen erreicht, speziell bei der Bildklassifizierung. 

Datenknappheit

Wie bereits erwähnt, sind Daten in hoher Quantität und Qualität schwer zu bekommen. Im Gegensatz zu Menschen, die bereits über die Zero-Shot-Lernfähigkeit verfügen, benötigen Maschinen zum Lernen gekennzeichnete Eingabedaten und können sich dann an natürlich auftretende Abweichungen anpassen. 

Wenn wir uns das Beispiel der Tierarten ansehen, waren es so viele. Und da die Anzahl der Kategorien in verschiedenen Bereichen weiter zunimmt, wird es viel Arbeit erfordern, mit dem Sammeln kommentierter Daten Schritt zu halten.

Aus diesem Grund ist Zero-Shot-Lernen für uns wertvoller geworden. Immer mehr Forscher sind an einer automatischen Attributerkennung interessiert, um den Mangel an verfügbaren Daten auszugleichen. 

Datenbeschriftung

Ein weiterer Vorteil des Zero-Shot-Lernens sind die Datenkennzeichnungseigenschaften. Die Datenkennzeichnung kann arbeitsintensiv und sehr mühsam sein und daher zu Fehlern während des Prozesses führen. Die Datenkennzeichnung erfordert Experten, wie z. B. Mediziner, die an einem biomedizinischen Datensatz arbeiten, was sehr teuer und zeitaufwändig ist. 

Zero-Shot-Lernen wird aufgrund der oben genannten Datenbeschränkungen immer beliebter. Es gibt ein paar Artikel, die ich Ihnen empfehlen würde, zu lesen, wenn Sie an seinen Fähigkeiten interessiert sind:

 
 
Nisha Arya ist Data Scientist und freiberuflicher technischer Redakteur. Sie ist besonders daran interessiert, Data Science Karriereberatung oder Tutorials und theoriebasiertes Wissen rund um Data Science anzubieten. Sie möchte auch die verschiedenen Möglichkeiten untersuchen, wie künstliche Intelligenz der Langlebigkeit des menschlichen Lebens zugute kommt/kann. Eine begeisterte Lernende, die ihr technisches Wissen und ihre Schreibfähigkeiten erweitern möchte, während sie anderen hilft, sie zu führen.
 

Zeitstempel:

Mehr von KDnuggets