Koncept du bör känna till innan du börjar med transformatorer

KDnuggets

Koncept du bör känna till innan du börjar med transformatorer

Stora dataTidsstämpel: 13 januari 2023 12:00

Källnod: 1894868

Återutgiven av Platon

anhängare: 0

Neurala nätverk lär sig genom siffror, så varje ord kommer att mappas till vektorer för att representera ett visst ord. Inbäddningsskiktet kan ses som en uppslagstabell som lagrar ordinbäddningar och hämtar dem med hjälp av index.

Koncept du bör känna till innan du börjar med Transformer

Ord som har samma betydelse kommer att ligga nära i termer av euklidiskt avstånd/cosinuslikhet. till exempel, i ordrepresentationen nedan är "lördag", söndag och "måndag" förknippade med samma koncept, så vi kan se att orden resulterar i liknande resultat.

Koncept du bör känna till innan du börjar med Transformer

Att bestämma ordets position, Varför behöver vi bestämma ordets position? eftersom transformatorkodaren inte har något återkommande som återkommande neurala nätverk måste vi lägga till lite information om positionerna i inbäddningsinbäddningarna. Detta görs med hjälp av positionskodning. Författarna till artikeln använde följande funktioner för att modellera positionen för ett ord.

Koncept du bör känna till innan du börjar med Transformer

Vi kommer att försöka förklara positionell kodning.

Koncept du bör känna till innan du börjar med Transformer

Här syftar "pos" på positionen för "ordet" i sekvensen. P0 hänvisar till positionsinbäddningen av det första ordet; "d" betyder storleken på ordet/tokeninbäddningen. I detta exempel d=5. Slutligen hänvisar "i" till var och en av de 5 individuella dimensionerna av inbäddningen (dvs. 0, 1,2,3,4, XNUMX, XNUMX, XNUMX)

om "i" varierar i ekvationen ovan får du ett gäng kurvor med olika frekvenser. Avläsning av positionsinbäddningsvärden mot olika frekvenser, ger olika värden vid olika inbäddningsdimensioner för P0 och P4.

Koncept du bör känna till innan du börjar med Transformer

I detta fråga, Q representerar ett vektorord, den nycklar K är alla andra ord i meningen, och värde V representerar ordets vektor.

Syftet med uppmärksamheten är att beräkna betydelsen av nyckeltermen jämfört med frågetermen relaterad till samma person/sak eller koncept.

I vårt fall är V lika med Q.

Uppmärksamhetsmekanismen ger oss betydelsen av ordet i en mening.

Koncept du bör känna till innan du börjar med Transformer

När vi beräknar den normaliserade punktprodukten mellan frågan och nycklarna får vi en tensor som representerar den relativa betydelsen av varandras ord för frågan.

Koncept du bör känna till innan du börjar med Transformer

När vi beräknar punktprodukten mellan Q och KT försöker vi uppskatta hur vektorerna (dvs. orden mellan fråga och nycklar) är justerade och returnerar en vikt för varje ord i meningen.

Sedan normaliserar vi resultatet i kvadrat av d_k och softmax-funktionen regulariserar termerna och skalar om dem mellan 0 och 1.

Slutligen multiplicerar vi resultatet (dvs vikter) med värdet (dvs alla ord) för att minska betydelsen av icke-relevanta ord och fokusera bara på de viktigaste orden.

Den flerhövdade uppmärksamhetsutgångsvektorn läggs till den ursprungliga positionsingångsinbäddningen. Detta kallas en restförbindelse/hopp över anslutning. Utsignalen från den kvarvarande anslutningen går genom lagernormalisering. Den normaliserade restutgången leds genom ett punktvis framkopplingsnätverk för vidare bearbetning.

Koncept du bör känna till innan du börjar med Transformer

Masken är en matris som har samma storlek som uppmärksamhetspoängen fyllda med värden på nollor och negativa oändligheter.

Koncept du bör känna till innan du börjar med Transformer

Anledningen till masken är att när du väl tar softmax för de maskerade poängen, blir de negativa oändligheterna noll, vilket lämnar noll uppmärksamhetspoäng för framtida tokens.

Detta säger åt modellen att inte fokusera på dessa ord.

Syftet med softmax-funktionen är att ta tag i reella tal (positiva och negativa) och omvandla dem till positiva tal som summerar till 1.

Koncept du bör känna till innan du börjar med Transformer

Ravikumar Naduvin är upptagen med att bygga och förstå NLP-uppgifter med PyTorch.

Ursprungliga. Skickas om med tillstånd.

Mer om detta ämne

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Tidsstämpel: Januari 13, 2023

Mer från KDnuggets

Jag skapade en AI-app på 3 dagar - KDnuggets

Jag skapade en AI-app på 3 dagar – KDnuggets

Källkluster:

Källnod: 2196805

Tidsstämpel: Augusti 4, 2023

4 sätt att generera passiv inkomst med ChatGPT

4 sätt att generera passiv inkomst med ChatGPT

Källkluster:

Källnod: 2005045

Tidsstämpel: Mar 10, 2023

Den ultimata samlingen av 50 gratiskurser för att behärska datavetenskap - KDnuggets

Den ultimata samlingen av 50 gratiskurser för att behärska datavetenskap – KDnuggets

Källkluster:

Källnod: 2551893

Tidsstämpel: April 19, 2024

Maximera prestanda i Edge AI-applikationer – KDnuggets

Källkluster:

Källnod: 2311504

Tidsstämpel: Oktober 5, 2023

5 gratis kurser för att bemästra matematik för datavetenskap - KDnuggets

5 gratis kurser för att bemästra matematik för datavetenskap – KDnuggets

Källkluster:

Källnod: 2548156

Tidsstämpel: April 15, 2024

Master Data Science in a Year: The Ultimate Guide to Affordable, Self-Paced Learning - KDnuggets

Master Data Science in a Year: The Ultimate Guide to Affordable, Self-Paced Learning – KDnuggets

Källkluster:

Källnod: 2507185

Tidsstämpel: Mar 7, 2024

8 Öppen källkod alternativ till ChatGPT och Bard

8 Öppen källkod alternativ till ChatGPT och Bard

Källkluster:

Källnod: 2050235

Tidsstämpel: April 6, 2023

Deep Learning med R - KDnuggets

Deep Learning med R – KDnuggets

Källkluster:

Källnod: 2114895

Tidsstämpel: Maj 30, 2023

5 gratis plattformar för att bygga en stark datavetenskapsportfölj – KDnuggets

Källkluster:

Källnod: 2309815

Tidsstämpel: Oktober 5, 2023

7 bästa verktygen för spårning av maskininlärningsexperiment

7 bästa verktygen för spårning av maskininlärningsexperiment

Källkluster:

Källnod: 1980665

Tidsstämpel: Februari 20, 2023

Finjustera OpenAI-språkmodeller med bullrigt märkta data

Källkluster:

Källnod: 2077011

Tidsstämpel: April 28, 2023

Vanligaste datavetenskapintervjufrågor och svar

Källkluster:

Källnod: 1860815

Tidsstämpel: Augusti 5, 2021