Über Transformatoren, Zeitformer und Aufmerksamkeit

Neuauflage von Plato

Verfolger: 0

Transformatoren und Aufmerksamkeit

Transformer sind ein sehr leistungsfähiges Deep-Learning-Modell, das in vielen Aufgaben der Verarbeitung natürlicher Sprache zum Standard werden konnte und auch den Bereich der Computer Vision revolutionieren wird.

Alles begann im Jahr 2017, als Google Brain das Papier veröffentlichte, das dazu bestimmt war, alles zu ändern, Aufmerksamkeit ist alles, was Sie brauchen [4]. Forscher wenden diese neue Architektur auf mehrere Probleme der Verarbeitung natürlicher Sprache an, und sofort ist klar, wie sehr dies möglicherweise einige der Einschränkungen überwinden kann, die RNNs plagen, die traditionell für Aufgaben wie das Übersetzen von einer Sprache in eine andere verwendet werden.

Wenn dieser ausführliche Bildungsinhalt für Sie nützlich ist, Abonnieren Sie unsere AI Research Mailingliste benachrichtigt werden, wenn wir neues Material veröffentlichen.

Im Laufe der Jahre haben sich Transformers zu einer Institution im Bereich der Verarbeitung natürlicher Sprache entwickelt und Google Brain fragt im Jahr 2020, ob sie bei Bildern genauso effektiv sein werden? Die Antwort ist ja, die Vision Transformers sind geboren und schaffen es mit einigen vorläufigen Modifikationen an den Bildern, die klassische Architektur der Transformer auszunutzen und auch in diesem Bereich bald den Stand der Technik bei vielen Problemen zu erreichen.

Die Aufregung ist groß und nach wenigen Monaten, Anfang 2021, veröffentlichten Facebook-Forscher eine neue Version des Transformers, diesmal allerdings speziell für Video, die TimeSformers. Offensichtlich ist diese Architektur selbst in diesem Fall mit einigen geringfügigen strukturellen Änderungen bald ein Gewinner im Video und Facebook kündigt im Februar 2021 an, sie mit den Videos seiner sozialen Netzwerke zu verwenden, um neue Modelle für die unterschiedlichsten Zwecke zu erstellen.

Warum brauchen wir Transformatoren?

Aber lassen Sie uns einen Schritt zurücktreten und die Beweggründe untersuchen, die Google-Forscher dazu veranlasst haben, nach einer neuen alternativen Architektur zu suchen, um Aufgaben der Verarbeitung natürlicher Sprache zu lösen.

Traditionell wurde eine Aufgabe wie die Übersetzung unter Verwendung von rekurrenten neuronalen Netzen durchgeführt, von denen bekannt ist, dass sie eine Reihe von Problemen aufweisen. Eines der Hauptprobleme ist der sequentielle Betrieb. Um beispielsweise einen Satz aus dem Englischen ins Italienische zu übersetzen, wurde bei dieser Art von Netzwerken das erste Wort des zu übersetzenden Satzes zusammen mit einem Anfangszustand an einen Kodierer übergeben und der nächste Zustand wurde dann an einen zweiten Kodierer mit . übergeben das zweite Wort des Satzes und so weiter bis zum letzten Wort. Der resultierende Zustand des letzten Codierers wird dann an einen Decoder weitergegeben, der als Ausgabe sowohl das erste übersetzte Wort als auch einen nachfolgenden Zustand zurückgibt, der an einen anderen Decoder weitergegeben wird, und so weiter.

Das Problem hier ist ziemlich offensichtlich, um den nächsten Schritt abzuschließen, muss ich das Ergebnis des vorherigen Schritts haben. Das ist ein großes Manko, denn man nutzt die Parallelisierungsmöglichkeit moderner GPUs nicht aus und verliert dadurch an Leistung. Es gibt auch andere Probleme wie Gradientenexplosion, Unfähigkeit, Abhängigkeiten zwischen entfernten Wörtern im selben Satz zu erkennen, und so weiter.

Aufmerksamkeit ist alles was Sie brauchen?

Es stellte sich dann die Frage, gibt es einen Mechanismus, den wir parallel berechnen können, der es uns ermöglicht, die benötigten Informationen aus dem Satz zu extrahieren? Die Antwort ist ja, und dieser Mechanismus ist Aufmerksamkeit.

Wenn wir Aufmerksamkeit definieren und für einen Moment alle technischen und implementierungsbezogenen Aspekte vergessen würden, wie würden wir dies tun?

Nehmen wir einen Beispielsatz und fragen uns, wobei wir uns auf das Wort „gab“ konzentrieren, auf welche anderen Wörter im Satz sollte ich meine Aufmerksamkeit richten, um diesem Wort eine Bedeutung zu verleihen? Ich könnte mir eine Reihe von Fragen stellen, zum Beispiel: Wer hat gespendet? Und in diesem Fall würde ich mich auf das Wort „Ich“ konzentrieren und dann fragen, Wem gab? Meine Aufmerksamkeit in diesem Fall auf das Wort Charlie zu richten und schließlich könnte ich fragen, was gab? Konzentrieren Sie sich schließlich auf das Wort Essen.

Indem ich mir diese Fragen stelle und dies vielleicht für jedes der Wörter im Satz tue, kann ich vielleicht die Bedeutung und die Facetten verstehen. Das Problem an dieser Stelle ist, wie setze ich dieses Konzept in die Praxis um?

Um die Berechnung der Aufmerksamkeit zu verstehen, können wir Parallelen zur Welt der Datenbanken ziehen. Wenn wir eine Suche in der Datenbank durchführen, senden wir eine Abfrage (Q) und suchen in den verfügbaren Daten nach einem oder mehreren Schlüsseln, die die Abfrage erfüllen. Die Ausgabe ist der Wert, der dem Schlüssel zugeordnet ist, der für die Abfrage am relevantesten ist.

Was bei der Aufmerksamkeitsberechnung passiert, ist sehr ähnlich.

Wir beginnen damit, dass wir uns den Satz, auf dem die Aufmerksamkeit berechnet werden soll, als Menge von Vektoren ansehen. Jedes Wort wird über einen Worteinbettungsmechanismus in einen Vektor codiert. Wir betrachten diese Vektoren als Schlüssel, unter denen in Bezug auf eine gesuchte Anfrage gesucht werden muss, die ein Wort aus demselben Satz (Selbstaufmerksamkeit) oder aus einem anderen Satz sein kann. An dieser Stelle müssen wir die Ähnlichkeit zwischen der Abfrage und jedem der verfügbaren Schlüssel mathematisch über das skalierte Punktprodukt berechnen. Dieser Prozess gibt eine Reihe von reellen Werten zurück, die sich möglicherweise stark voneinander unterscheiden, aber da wir Gewichte zwischen 0 und 1 erhalten möchten, deren Summe gleich 1 ist, wenden wir einen SoftMax auf die Ergebnisse an. Sobald wir die Gewichte erhalten haben, müssen wir das Gewicht jedes Wortes und damit seine Relevanz für die Abfrage mit dem Vektor multiplizieren, der es repräsentiert. Wir geben schließlich die Kombination dieser Produkte als Aufmerksamkeitsvektor zurück.

Um diesen Mechanismus aufzubauen, verwenden wir lineare Schichten, die ausgehend vom Eingabevektor Schlüssel, Abfragen und Werte durch Matrixmultiplikation generieren. Die Kombination von Schlüsseln und Abfragen ermöglicht es, die genaueste Übereinstimmung zwischen diesen beiden Sätzen zu erhalten, deren Ergebnis dann mit den Werten kombiniert wird, um die relevanteste Kombination zu erhalten.

Dieser Mechanismus würde aber ausreichen, wenn wir uns auf ein einzelnes Wort konzentrieren wollten, was aber, wenn wir den Satz aus mehreren Blickwinkeln betrachten und dann mehrmals parallel die Aufmerksamkeit berechnen wollten? Wir verwenden die sogenannte Multi-Head-Aufmerksamkeit, mit einer ähnlichen Struktur, deren Ergebnisse am Ende einfach kombiniert werden, um einen einzigen, zusammenfassenden Vektor aller berechneten Aufmerksamkeiten zurückzugeben.

Nachdem wir nun verstanden haben, welcher Mechanismus zu verwenden ist und dessen Parallelisierbarkeit sichergestellt ist, analysieren wir die Struktur, in die die Mehrkopf-Aufmerksamkeit eingebettet ist und die den Transformator darstellt.

Betrachten wir immer eine Übersetzungsaufgabe, konzentrieren wir uns zunächst auf den linken Teil des Bildes, den Kodierungsteil, der den gesamten zu übersetzenden Satz vom Englischen ins Italienische als Eingabe verwendet. Schon hier sehen wir, dass es im Vergleich zum RNN-Ansatz eine große Revolution gibt, denn anstatt den Satz Wort für Wort zu verarbeiten, wird er komplett vorgelegt. Bevor mit der Aufmerksamkeitsberechnung fortgefahren wird, werden die die Wörter darstellenden Vektoren mit einem auf Sinus und Cosinus basierenden Positionscodierungsmechanismus kombiniert, der Informationen über die Position der Wörter im Satz in die Vektoren einbettet. Dies ist sehr wichtig, da wir wissen, dass in jeder Sprache die Position der Wörter im Satz mehr als relevant ist und es Informationen sind, die wir nicht unbedingt verlieren können, wenn wir eine korrekte Bewertung vornehmen wollen. All diese Informationen fließen in einen Mehrkopf-Aufmerksamkeitsmechanismus ein, dessen Ergebnis normalisiert und an einen Feed-Forward weitergegeben wird. Die Codierung kann N-mal durchgeführt werden, um aussagekräftigere Informationen zu erhalten.

Aber der zu übersetzende Satz ist nicht die einzige Eingabe für den Transformator, wir haben einen zweiten Block, den Decoder, der die Ausgabe der vorherigen Ausführung des Transformators aufnimmt. Wenn wir beispielsweise annehmen, dass wir die ersten beiden Wörter bereits übersetzt haben und wir das dritte Wort des Satzes auf Italienisch vorhersagen wollen, übergeben wir dem Decoder die ersten beiden übersetzten Wörter. Die Positionscodierung und die Mehrkopf-Aufmerksamkeit werden an diesen Wörtern durchgeführt und das Ergebnis wird mit dem Codiererergebnis kombiniert. Die Aufmerksamkeit wird für die Kombination neu berechnet und das Ergebnis wird mittels einer linearen Schicht und eines Softmax ein Vektor potentieller Kandidatenwörter sein, die das neue übersetzte Wort mit einer jedem von ihnen zugeordneten Wahrscheinlichkeit sind. In der nächsten Iteration nimmt der Decoder dann zusätzlich zu den vorherigen auch dieses Wort auf.

Diese Struktur hat sich daher als unglaublich effektiv und performant erwiesen, denn sie verarbeitet den Satz in seiner Gesamtheit und nicht Wort für Wort, speichert Informationen über die Position von Wörtern im Satz und nutzt die Aufmerksamkeit, die ein Mechanismus ist, der in der Lage ist, die effectively Inhalt des Satzes.

Nach all dieser netten Erklärung könnte man meinen, Transformatoren seien perfekt und ohne jegliche Mängel. Offensichtlich ist es nicht so und eine seiner Stärken ist auch seine Schwäche, das Kalkül der Aufmerksamkeit!

Um die Aufmerksamkeit jedes Wortes gegenüber allen anderen zu berechnen, muss ich N²-Rechnungen durchführen, die, wenn auch teilweise parallelisierbar, immer noch sehr teuer sind. Stellen wir uns bei solch einer Komplexität vor, was es bedeutet, die Aufmerksamkeit viele Male auf einen Absatz mit Hunderten und Aberhunderten von Wörtern zu berechnen.

Grafisch kann man sich eine Matrix vorstellen, die mit den Aufmerksamkeitswerten jedes Wortes im Vergleich zu jedem anderen gefüllt werden muss und dies eindeutig mit entsprechenden Kosten verbunden ist. Es ist wichtig darauf hinzuweisen, dass optional und normalerweise auf dem Decoder die maskierte Aufmerksamkeit berechnet werden kann, bei der Sie die Berechnung der Aufmerksamkeit zwischen dem Abfragewort und allen folgenden vermeiden avoid

Einige mögen dann argumentieren, aber brauchen wir wirklich all diese oben gesehene Struktur, wenn dann viele der Vorteile, die Transformatoren mit sich bringen, eher mit dem Aufmerksamkeitsmechanismus zusammenhängen? Aber lautete nicht das erste Google Brain Paper aus dem Jahr 2017 „Attention Is All You Need“? [4] Sicher legitim, aber im März 2021 veröffentlichten Google-Forscher erneut ein Papier mit dem Titel „Aufmerksamkeit ist nicht alles, was Sie brauchen“ [6]. Was bedeutet das? Die Forscher führten Experimente durch, die das Verhalten des Selbstaufmerksamkeitsmechanismus analysierten, der ohne eine der anderen Komponenten der Transformatoren durchgeführt wurde, und fanden heraus, dass er mit einer doppelt exponentiellen Rate zu einer Rang-1-Matrix konvergiert. Dies bedeutet, dass dieser Mechanismus an sich praktisch nutzlos ist. Warum sind Transformatoren so leistungsstark? Dies ist auf ein Tauziehen zwischen dem Selbstaufmerksamkeitsmechanismus, der dazu neigt, den Rang der Matrix zu reduzieren, und zwei anderen Komponenten von Transformatoren, Skip-Verbindungen und MLP, zurückzuführen.

Die erste ermöglicht es, die Verteilung der Pfade zu diversifizieren, wodurch vermieden wird, dass alle gleichen Pfade erhalten werden, und dies reduziert drastisch die Wahrscheinlichkeit, dass die Matrix auf Rang 1 reduziert wird. Der MLP schafft es stattdessen, den Rang der resultierenden Matrix aufgrund ihrer Nichtlinearität zu erhöhen. Im Gegensatz dazu hat sich gezeigt, dass die Normalisierung keine Rolle spielt, um dieses Verhalten des Selbstaufmerksamkeitsmechanismus zu vermeiden. Daher ist Aufmerksamkeit nicht alles, was Sie brauchen, aber die Transformer-Architektur schafft es, sie zu ihrem Vorteil zu nutzen, um beeindruckende Ergebnisse zu erzielen.

Vision Transformer

An diesem Punkt im Jahr 2020 angekommen, fragten sich Google-Forscher erneut: "Aber wenn sich Transformer im Bereich der Verarbeitung natürlicher Sprache als so effektiv erwiesen haben, wie werden sie dann mit Bildern funktionieren?". Ein bisschen wie bei NLP gehen wir vom Konzept der Aufmerksamkeit aus, aber dieses Mal auf Bilder angewendet. Versuchen wir es anhand eines Beispiels zu verstehen.

Bild aus „Ein Bild ist 16×16 Wörter wert“ (Dosovitskiy et al.)

Wenn wir ein Bild von einem Hund vor einer Wand betrachten, würde jeder von uns sagen, dass es ein „Bild von einem Hund“ und kein „Bild von einer Wand“ ist, weil wir unsere Aufmerksamkeit auf die dominantes und diskriminierendes Motiv des Bildes, und genau dies bewirkt der auf Bilder angewandte Aufmerksamkeitsmechanismus.

Nachdem wir nun verstanden haben, dass das Konzept der Aufmerksamkeit auch auf Bilder ausgeweitet werden kann, müssen wir nur noch einen Weg finden, Bilder in einen klassischen Transformer einzugeben.

Wir wissen, dass der Transformer als Eingabevektoren die von Wörtern verwendet. Wie können wir also ein Bild in Vektoren umwandeln? Eine erste Lösung wäre sicherlich, alle Pixel des Bildes zu verwenden und sie „inline“ zu platzieren, um einen Vektor zu erhalten. Aber lassen Sie uns einen Moment innehalten und sehen, was passieren würde, wenn wir diese Option wählen.

Wir haben zuvor gesagt, dass die Berechnung der Aufmerksamkeit eine Komplexität von O(N²) hat. Dies bedeutet, dass wir, wenn wir die Komplexität jedes Pixels in Bezug auf alle anderen berechnen müssen, in einem Bild mit niedriger Auflösung wie 256 × 256 Pixel hätten ein extremer Rechenaufwand und mit den heutigen Mitteln absolut unüberwindbar. Dieser Ansatz ist also sicherlich nicht praktikabel.

Die Lösung ist recht einfach und in der Arbeit „Ein Bild ist 16×16 Wörter wert“ [2] wird vorgeschlagen, das Bild in Patches zu unterteilen und dann jedes Patch mit einer linearen Projektion in einen Vektor umzuwandeln, der die Patches in einem Vektor abbildet Platz.

Jetzt müssen wir uns nur noch die Architektur des Vision Transformer ansehen.

Das Bild wird dann in Patches unterteilt, die eine lineare Projektion durchlaufen, um Vektoren zu erhalten, die mit Informationen über die Position des Patches innerhalb des Bildes gekoppelt und einem klassischen Transformer zugeführt werden. Das Hinzufügen von Informationen über die ursprüngliche Position des Patches im Bild ist von grundlegender Bedeutung, da diese Informationen während der linearen Projektion verloren gehen würden, auch wenn es sehr wichtig ist, den Inhalt des Bildes vollständig zu verstehen. Es wird ein weiterer Vektor eingefügt, der unabhängig vom analysierten Bild ist und verwendet wird, um globale Informationen über das gesamte Bild zu erhalten. Tatsächlich wird die diesem Patch entsprechende Ausgabe als einzige berücksichtigt und an einen MLP übergeben, der zurückgibt die vorhergesagte Klasse.

Es gibt jedoch einen Punkt in diesem Prozess, an dem ein sehr erheblicher Informationsverlust auftritt. Tatsächlich geht beim Übergang von Patch zu Vektor jede Art von Information über die Position von Pixeln im Patch verloren. Dies ist sicherlich eine ernste Sache, weisen die Autoren von Transformer in Transformer (TnT) [3] darauf hin, dass die Anordnung von Pixeln innerhalb eines zu analysierenden Bildausschnitts eine bestimmte Information ist, die wir nicht verlieren möchten, um eine Qualität zu erzielen Prognose.

Die Autoren von TnT fragten sich dann, ob es möglich ist, die Vektoren besser zum Übertrager zu bringen?
Ihr Vorschlag ist dann, jedes einzelne Patch (pxp) des Bildes, das selbst Bilder auf 3 RGB-Kanälen sind, in einen C-Kanal-Tensor umzuwandeln. Dieser Tensor wird dann in p' Teile mit p'

Sie werden dann verkettet und linear projiziert, um sie auf die gleiche Größe zu bringen wie der Vektor, der aus der linearen Projektion des ursprünglichen Patches erhalten und damit kombiniert wird.

Auf diese Weise werden die Eingangsvektoren zum Transformator auch durch die Anordnung der Pixel innerhalb der Patches beeinflusst und dadurch ist es den Autoren gelungen, die Leistung bei verschiedenen Computer-Vision-Aufgaben weiter zu verbessern.

Zeitformer

Angesichts der großen Erfolge von Transformatoren zunächst im NLP und dann in ihrer Anwendung auf Bilder versuchten Facebook-Forscher im Jahr 2021, diese Architektur auch auf Video anzuwenden.

Intuitiv ist klar, dass dies möglich ist, da wir alle wissen, dass ein Video nichts anderes ist als eine Reihe von Frames nacheinander und Frames nichts anderes als Bilder.

Es gibt nur ein kleines Detail, das sie von Vision Transformern unterscheidet, man muss nicht nur den Raum, sondern auch die Zeit berücksichtigen. In diesem Fall können wir bei der Berechnung der Aufmerksamkeit die Frames nicht als isolierte Bilder betrachten, sondern sollten eine Form von Aufmerksamkeit finden, die die Variation berücksichtigt, die zwischen aufeinanderfolgenden Frames auftritt, da sie für die Bewertung von . von zentraler Bedeutung ist ein Video.

Um dieses Problem zu lösen, haben die Autoren mehrere neue Aufmerksamkeitsmechanismen vorgeschlagen, von solchen, die sich ausschließlich auf den Raum konzentrieren, der hauptsächlich als Referenzpunkt verwendet wird, bis hin zu solchen, die die Aufmerksamkeit axial, gestreut oder gemeinsam zwischen Raum und Zeit berechnen.

Die Methode mit den besten Ergebnissen ist jedoch die geteilte Raum-Zeit-Aufmerksamkeit. Es besteht darin, bei gegebenem Rahmen zum Zeitpunkt t und einem seiner Patches als Abfrage die räumliche Aufmerksamkeit über den gesamten Rahmen und dann die zeitliche Aufmerksamkeit im gleichen Patch der Abfrage, aber im vorherigen und nächsten Rahmen zu berechnen.

Aber warum funktioniert dieser Ansatz so gut? Der Grund dafür ist, dass es mehr separate Funktionen lernt als andere Ansätze und daher Videos aus verschiedenen Kategorien besser verstehen kann. Wir können dies in der folgenden Visualisierung sehen, in der jedes Video durch einen Punkt im Raum dargestellt wird und seine Farbe die Kategorie darstellt, zu der es gehört.

Die Autoren hinterfragten auch die Relevanz der Auflösung der Videos und der Anzahl der darin enthaltenen Bilder und stellten fest, dass die Genauigkeit des Modells bis zu einem gewissen Punkt umso besser ist, je höher die Auflösung ist. Was die Anzahl der Frames betrifft, so erhöht sich wiederum mit zunehmender Anzahl von Frames auch die Genauigkeit. Das Interessante ist, dass es nicht möglich war, Tests mit einer höheren Anzahl von Frames als in der Grafik gezeigt durchzuführen und daher möglicherweise die Genauigkeit noch verbessert werden könnte, wir haben die Obergrenze dieser Verbesserung noch nicht gefunden.

Bei Vision Transformers ist bekannt, dass ein größerer Trainingsdatensatz oft zu einer besseren Genauigkeit führt. Dies wurde auch von den Autoren auf TimeSformers überprüft und auch hier steigt mit der Anzahl der berücksichtigten Trainingsvideos auch die Genauigkeit.

Schlussfolgerungen

Was ist jetzt noch zu tun? Transformer sind gerade in der Welt der Computer Vision gelandet und scheinen mehr als entschlossen zu sein, traditionelle Faltungsnetzwerke zu ersetzen oder zumindest eine wichtige Rolle in diesem Bereich zu spielen. Die wissenschaftliche Gemeinschaft ist daher in Aufruhr, um Transformers weiter zu verbessern, sie mit verschiedenen Techniken zu kombinieren und auf reale Probleme anzuwenden, um endlich Dinge tun zu können, die bis vor kurzem nicht möglich waren. Große Giganten wie Facebook und Google arbeiten aktiv an der Entwicklung und Anwendung von Transformers und wir haben wahrscheinlich nur an der Oberfläche gekratzt.

Hat dir der Artikel gefallen? Begleiten Sie mich auf LinkedIn! Und wenn Sie sich für Transformatoren interessieren Lesen Sie meinen Artikel über DINO!