Konzepte, die Sie kennen sollten, bevor Sie sich mit Transformers befassen

Konzepte, die Sie kennen sollten, bevor Sie sich mit Transformers befassen

Quellknoten: 1894868

Neuronale Netze lernen durch Zahlen, sodass jedes Wort Vektoren zugeordnet wird, um ein bestimmtes Wort darzustellen. Die Einbettungsschicht kann man sich als Nachschlagetabelle vorstellen, die Worteinbettungen speichert und sie unter Verwendung von Indizes abruft.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

Wörter, die dieselbe Bedeutung haben, sind in Bezug auf euklidische Distanz/Kosinus-Ähnlichkeit ähnlich. Beispielsweise sind in der folgenden Wortdarstellung „Samstag“, „Sonntag“ und „Montag“ mit demselben Konzept verbunden, sodass wir sehen können, dass die Wörter ähnlich resultieren.
 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Die Bestimmung der Position des Wortes Warum müssen wir die Position des Wortes bestimmen? Da der Transformer-Encoder keine Wiederholung wie rekurrente neuronale Netze hat, müssen wir einige Informationen über die Positionen in die Eingabeeinbettungen hinzufügen. Dies erfolgt über eine Positionscodierung. Die Autoren des Papiers verwendeten die folgenden Funktionen, um die Position eines Wortes zu modellieren.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

Wir werden versuchen, die Positionscodierung zu erklären.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

Hier bezieht sich „pos“ auf die Position des „Wortes“ in der Sequenz. P0 bezieht sich auf die Positionseinbettung des ersten Wortes; „d“ bedeutet die Größe der Wort-/Token-Einbettung. In diesem Beispiel ist d=5. Schließlich bezieht sich „i“ auf jede der 5 einzelnen Dimensionen der Einbettung (dh 0, 1,2,3,4)

Wenn „i“ in der obigen Gleichung variiert, erhalten Sie eine Reihe von Kurven mit unterschiedlichen Frequenzen. Ablesen der Positionseinbettungswerte gegen verschiedene Frequenzen, was unterschiedliche Werte bei verschiedenen Einbettungsdimensionen für P0 und P4 ergibt.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

In diesem Abfrage, Q stellt ein Vektorwort dar, das Schlüssel k sind alle anderen Wörter im Satz, und Wert v stellt den Vektor des Wortes dar.

Der Zweck der Aufmerksamkeit besteht darin, die Bedeutung des Schlüsselbegriffs im Vergleich zum Suchbegriff zu berechnen, der sich auf dieselbe Person/Sache oder denselben Begriff bezieht.

In unserem Fall ist V gleich Q.

Der Aufmerksamkeitsmechanismus gibt uns die Bedeutung des Wortes in einem Satz.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

Wenn wir das normalisierte Punktprodukt zwischen der Abfrage und den Schlüsseln berechnen, erhalten wir einen Tensor, der die relative Bedeutung jedes anderen Wortes für die Abfrage darstellt.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

Bei der Berechnung des Punktprodukts zwischen Q und KT versuchen wir zu schätzen, wie die Vektoren (dh Wörter zwischen Abfrage und Schlüsseln) ausgerichtet sind, und geben eine Gewichtung für jedes Wort im Satz zurück.

Dann normalisieren wir das Ergebnis zum Quadrat von d_k und Die Softmax-Funktion normalisiert die Terme und skaliert sie zwischen 0 und 1 neu.

Schließlich multiplizieren wir das Ergebnis (dh Gewichte) mit dem Wert (dh alle Wörter), um die Bedeutung nicht relevanter Wörter zu reduzieren und uns nur auf die wichtigsten Wörter zu konzentrieren.

Der mehrköpfige Aufmerksamkeitsausgabevektor wird zu der ursprünglichen positionellen Eingabeeinbettung hinzugefügt. Dies wird als Restverbindung/Sprungverbindung bezeichnet. Die Ausgabe der Restverbindung durchläuft die Schichtnormalisierung. Die normalisierte Restausgabe wird zur weiteren Verarbeitung durch ein punktweises Feed-Forward-Netzwerk geleitet.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Die Maske ist eine Matrix, die dieselbe Größe wie die Aufmerksamkeitswerte hat und mit Werten von Nullen und negativen Unendlichkeiten gefüllt ist.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen
 

Der Grund für die Maske ist, dass die negativen Unendlichkeiten Null werden, sobald Sie den Softmax der maskierten Punktzahlen nehmen, wodurch null Aufmerksamkeitspunktzahlen für zukünftige Token übrig bleiben.

Dies weist das Modell an, sich nicht auf diese Wörter zu konzentrieren.

Der Zweck der Softmax-Funktion besteht darin, reelle Zahlen (positiv und negativ) zu erfassen und sie in positive Zahlen umzuwandeln, die sich zu 1 summieren.

 

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

 
 
Ravikumar Naduwin ist damit beschäftigt, NLP-Aufgaben mit PyTorch zu erstellen und zu verstehen.

 
Original. Mit Genehmigung erneut veröffentlicht.
 

Zeitstempel:

Mehr von KDnuggets