Konzepte, die Sie kennen sollten, bevor Sie sich mit Transformers befassen

KDnuggets

Konzepte, die Sie kennen sollten, bevor Sie sich mit Transformers befassen

Big DataZeitstempel: 13. Januar 2023, 12:00 Uhr

Quellknoten: 1894868

Neuauflage von Plato

Verfolger: 0

Neuronale Netze lernen durch Zahlen, sodass jedes Wort Vektoren zugeordnet wird, um ein bestimmtes Wort darzustellen. Die Einbettungsschicht kann man sich als Nachschlagetabelle vorstellen, die Worteinbettungen speichert und sie unter Verwendung von Indizes abruft.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Wörter, die dieselbe Bedeutung haben, sind in Bezug auf euklidische Distanz/Kosinus-Ähnlichkeit ähnlich. Beispielsweise sind in der folgenden Wortdarstellung „Samstag“, „Sonntag“ und „Montag“ mit demselben Konzept verbunden, sodass wir sehen können, dass die Wörter ähnlich resultieren.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Die Bestimmung der Position des Wortes Warum müssen wir die Position des Wortes bestimmen? Da der Transformer-Encoder keine Wiederholung wie rekurrente neuronale Netze hat, müssen wir einige Informationen über die Positionen in die Eingabeeinbettungen hinzufügen. Dies erfolgt über eine Positionscodierung. Die Autoren des Papiers verwendeten die folgenden Funktionen, um die Position eines Wortes zu modellieren.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Wir werden versuchen, die Positionscodierung zu erklären.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Hier bezieht sich „pos“ auf die Position des „Wortes“ in der Sequenz. P0 bezieht sich auf die Positionseinbettung des ersten Wortes; „d“ bedeutet die Größe der Wort-/Token-Einbettung. In diesem Beispiel ist d=5. Schließlich bezieht sich „i“ auf jede der 5 einzelnen Dimensionen der Einbettung (dh 0, 1,2,3,4)

Wenn „i“ in der obigen Gleichung variiert, erhalten Sie eine Reihe von Kurven mit unterschiedlichen Frequenzen. Ablesen der Positionseinbettungswerte gegen verschiedene Frequenzen, was unterschiedliche Werte bei verschiedenen Einbettungsdimensionen für P0 und P4 ergibt.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

In diesem Abfrage, Q stellt ein Vektorwort dar, das Schlüssel k sind alle anderen Wörter im Satz, und Wert v stellt den Vektor des Wortes dar.

Der Zweck der Aufmerksamkeit besteht darin, die Bedeutung des Schlüsselbegriffs im Vergleich zum Suchbegriff zu berechnen, der sich auf dieselbe Person/Sache oder denselben Begriff bezieht.

In unserem Fall ist V gleich Q.

Der Aufmerksamkeitsmechanismus gibt uns die Bedeutung des Wortes in einem Satz.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Wenn wir das normalisierte Punktprodukt zwischen der Abfrage und den Schlüsseln berechnen, erhalten wir einen Tensor, der die relative Bedeutung jedes anderen Wortes für die Abfrage darstellt.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Bei der Berechnung des Punktprodukts zwischen Q und KT versuchen wir zu schätzen, wie die Vektoren (dh Wörter zwischen Abfrage und Schlüsseln) ausgerichtet sind, und geben eine Gewichtung für jedes Wort im Satz zurück.

Dann normalisieren wir das Ergebnis zum Quadrat von d_k und Die Softmax-Funktion normalisiert die Terme und skaliert sie zwischen 0 und 1 neu.

Schließlich multiplizieren wir das Ergebnis (dh Gewichte) mit dem Wert (dh alle Wörter), um die Bedeutung nicht relevanter Wörter zu reduzieren und uns nur auf die wichtigsten Wörter zu konzentrieren.

Der mehrköpfige Aufmerksamkeitsausgabevektor wird zu der ursprünglichen positionellen Eingabeeinbettung hinzugefügt. Dies wird als Restverbindung/Sprungverbindung bezeichnet. Die Ausgabe der Restverbindung durchläuft die Schichtnormalisierung. Die normalisierte Restausgabe wird zur weiteren Verarbeitung durch ein punktweises Feed-Forward-Netzwerk geleitet.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Die Maske ist eine Matrix, die dieselbe Größe wie die Aufmerksamkeitswerte hat und mit Werten von Nullen und negativen Unendlichkeiten gefüllt ist.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Der Grund für die Maske ist, dass die negativen Unendlichkeiten Null werden, sobald Sie den Softmax der maskierten Punktzahlen nehmen, wodurch null Aufmerksamkeitspunktzahlen für zukünftige Token übrig bleiben.

Dies weist das Modell an, sich nicht auf diese Wörter zu konzentrieren.

Der Zweck der Softmax-Funktion besteht darin, reelle Zahlen (positiv und negativ) zu erfassen und sie in positive Zahlen umzuwandeln, die sich zu 1 summieren.

Konzepte, die Sie kennen sollten, bevor Sie mit Transformer beginnen

Ravikumar Naduwin ist damit beschäftigt, NLP-Aufgaben mit PyTorch zu erstellen und zu verstehen.

Original. Mit Genehmigung erneut veröffentlicht.

Mehr zu diesem Thema

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Zeitstempel: 13. Januar 2023

Mehr von KDnuggets

Starten Sie eine Karriere in einem wachsenden Bereich mit dem Data Analytics Professional-Zertifikat von Google

Quellcluster:

Quellknoten: 805380

Zeitstempel: 7. April 2021

5 Dinge, die Sie beachten sollten, bevor Sie sich für Ihren nächsten Job im Bereich Data Science entscheiden

Quellcluster:

Quellknoten: 1583656

Zeitstempel: Jan 12, 2022

Kennen Sie sich mit Datenkennzeichnung aus?

Quellcluster:

Quellknoten: 1124024

Zeitstempel: 8. Oktober 2021

KDnuggets News, 22. Februar: Python lernen in vier Wochen: Ein Fahrplan • Ist Data Science eine aussterbende Karriere?

KDnuggets News, 22. Februar: Python lernen in vier Wochen: Ein Fahrplan • Ist Data Science eine aussterbende Karriere?

Quellcluster:

Quellknoten: 1972483

Zeitstempel: 22. Februar 2023

GitHub-Aktionen für Anfänger im maschinellen Lernen – KDnuggets

GitHub-Aktionen für Anfänger im maschinellen Lernen – KDnuggets

Quellcluster:

Quellknoten: 2518691

Zeitstempel: 18. März 2024

Steigern Sie diesen November Ihr Level mit den Keynotes und Schulungssitzungen des ODSC West 2021

Quellcluster:

Quellknoten: 1878486

Zeitstempel: 20. Oktober 2021

So ermitteln Sie die am besten passende Datenverteilung mit Python

Quellcluster:

Quellknoten: 1103917

Zeitstempel: 30. September 2021

7 Python-Bibliotheken, die jeder Dateningenieur kennen sollte – KDnuggets

7 Python-Bibliotheken, die jeder Dateningenieur kennen sollte – KDnuggets

Quellcluster:

Quellknoten: 2557825

Zeitstempel: 25. April 2024

RAPIDS cuDF für Accelerated Data Science auf Google Colab

RAPIDS cuDF für Accelerated Data Science auf Google Colab

Quellcluster:

Quellknoten: 1891849

Zeitstempel: Jan 11, 2023

Was ist der wirkliche Unterschied zwischen Data Engineers und Data Scientists?

Quellcluster:

Quellknoten: 1079313

Zeitstempel: 16. September 2021

Extraktive Zusammenfassung mit LLM unter Verwendung von BERT – KDnuggets

Extraktive Zusammenfassung mit LLM unter Verwendung von BERT – KDnuggets

Quellcluster:

Quellknoten: 2509321

Zeitstempel: 5. März 2024

GPT-4: Alles, was Sie wissen müssen

GPT-4: Alles, was Sie wissen müssen

Quellcluster:

Quellknoten: 2011204

Zeitstempel: 15. März 2023