Koncepter, du bør kende, før du begynder på transformere

KDnuggets

Koncepter, du bør kende, før du begynder på transformere

Big dataTidsstempel: 13. januar 2023 12:00

Kildeknude: 1894868

Genudgivet af Platon

Abonnenter: 0

Neurale netværk lærer gennem tal, så hvert ord vil blive kortlagt til vektorer for at repræsentere et bestemt ord. Indlejringslaget kan opfattes som en opslagstabel, der gemmer ordindlejringer og henter dem ved hjælp af indekser.

Koncepter, du bør kende, før du begynder på Transformer

Ord, der har samme betydning, vil være tæt på med hensyn til euklidisk afstand/cosinus lighed. for eksempel, i nedenstående ordrepræsentation er "lørdag", "søndag" og "mandag" forbundet med det samme koncept, så vi kan se, at ordene resulterer ens.

Koncepter, du bør kende, før du begynder på Transformer

Bestemmelsen af ordets position, hvorfor skal vi bestemme ordets position? fordi transformatorenkoderen ikke har nogen gentagelse som tilbagevendende neurale netværk, skal vi tilføje nogle oplysninger om positionerne i input-indlejringerne. Dette gøres ved hjælp af positionskodning. Forfatterne af papiret brugte følgende funktioner til at modellere et ords position.

Koncepter, du bør kende, før du begynder på Transformer

Vi vil forsøge at forklare positionel kodning.

Koncepter, du bør kende, før du begynder på Transformer

Her henviser "pos" til positionen af "ordet" i sekvensen. P0 refererer til positionsindlejringen af det første ord; "d" betyder størrelsen af ordet/token-indlejringen. I dette eksempel er d=5. Endelig refererer "i" til hver af de 5 individuelle dimensioner af indlejringen (dvs. 0, 1,2,3,4)

hvis "i" varierer i ligningen ovenfor, vil du få en masse kurver med varierende frekvenser. Aflæsning af positionsindlejringsværdier mod forskellige frekvenser, hvilket giver forskellige værdier ved forskellige indlejringsdimensioner for P0 og P4.

Koncepter, du bør kende, før du begynder på Transformer

I denne forespørgsel, Q repræsenterer et vektorord, den nøgler K er alle andre ord i sætningen, og værdi V repræsenterer ordets vektor.

Formålet med opmærksomhed er at beregne vigtigheden af nøgleudtrykket sammenlignet med søgeudtrykket relateret til den samme person/ting eller koncept.

I vores tilfælde er V lig med Q.

Opmærksomhedsmekanismen giver os betydningen af ordet i en sætning.

Koncepter, du bør kende, før du begynder på Transformer

Når vi beregner det normaliserede punktprodukt mellem forespørgslen og nøglerne, får vi en tensor, der repræsenterer den relative betydning af hinandens ord for forespørgslen.

Koncepter, du bør kende, før du begynder på Transformer

Når vi beregner prikproduktet mellem Q og KT, forsøger vi at estimere, hvordan vektorerne (dvs. ordene mellem forespørgsel og nøgler) er justeret og returnerer en vægt for hvert ord i sætningen.

Derefter normaliserer vi resultatet i kvadreret af d_k, og softmax-funktionen regulariserer vilkårene og omskalerer dem mellem 0 og 1.

Til sidst multiplicerer vi resultatet( dvs. vægte) med værdien (dvs. alle ord) for at reducere betydningen af ikke-relevante ord og kun fokusere på de vigtigste ord.

Multi-headed opmærksomhed output vektor føjes til den oprindelige positionelle input indlejring. Dette kaldes en restforbindelse/springforbindelse. Outputtet fra den resterende forbindelse går gennem lagnormalisering. Det normaliserede restoutput føres gennem et punktvist feed-forward-netværk til videre bearbejdning.

Koncepter, du bør kende, før du begynder på Transformer

Masken er en matrix, der har samme størrelse som opmærksomhedsscorerne fyldt med værdier på 0'er og negative uendeligheder.

Koncepter, du bør kende, før du begynder på Transformer

Årsagen til masken er, at når du først tager softmax af de maskerede score, bliver de negative uendeligheder nul, hvilket efterlader nul opmærksomhedsscore for fremtidige tokens.

Dette fortæller modellen, at den ikke skal fokusere på disse ord.

Formålet med softmax-funktionen er at få fat i reelle tal (positive og negative) og omdanne dem til positive tal, der summer til 1.

Koncepter, du bør kende, før du begynder på Transformer

Ravikumar Naduvin har travlt med at opbygge og forstå NLP-opgaver ved hjælp af PyTorch.

Original. Genopslået med tilladelse.

Mere om dette emne

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
Kilde: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Tidsstempel: Januar 13, 2023

Mere fra KDnuggets

Start en karriere i et voksende felt med Googles Data Analytics Professional Certificate

Kildeklynge:

Kildeknude: 805380

Tidsstempel: April 7, 2021

5 ting at huske på, før du vælger dit næste datavidenskabsjob

Kildeklynge:

Kildeknude: 1583656

Tidsstempel: Jan 12, 2022

Er du bekendt med datamærkning?

Kildeklynge:

Kildeknude: 1124024

Tidsstempel: Oktober 8, 2021

KDnuggets News, 22. februar: Lær Python på fire uger: En køreplan • Er datavidenskab en døende karriere?

KDnuggets News, 22. februar: Lær Python på fire uger: En køreplan • Er datavidenskab en døende karriere?

Kildeklynge:

Kildeknude: 1972483

Tidsstempel: Februar 22, 2023

GitHub Actions For Machine Learning Beginners - KDnuggets

GitHub-handlinger for begyndere med maskinlæring – KDnuggets

Kildeklynge:

Kildeknude: 2518691

Tidsstempel: Mar 18, 2024

Level Up denne november med ODSC West 2021 Keynotes og træningssessioner

Kildeklynge:

Kildeknude: 1878486

Tidsstempel: Oktober 20, 2021

Sådan bestemmes den bedst passende datadistribution ved hjælp af Python

Kildeklynge:

Kildeknude: 1103917

Tidsstempel: September 30, 2021

7 Python-biblioteker, som enhver dataingeniør bør kende - KDnuggets

7 Python-biblioteker, som enhver dataingeniør bør kende – KDnuggets

Kildeklynge:

Kildeknude: 2557825

Tidsstempel: April 25, 2024

RAPIDS cuDF til Accelerated Data Science på Google Colab

RAPIDS cuDF til Accelerated Data Science på Google Colab

Kildeklynge:

Kildeknude: 1891849

Tidsstempel: Jan 11, 2023

Hvad er den virkelige forskel mellem dataingeniører og dataforskere?

Kildeklynge:

Kildeknude: 1079313

Tidsstempel: September 16, 2021

Ekstraktiv opsummering med LLM ved hjælp af BERT - KDnuggets

Ekstraktiv opsummering med LLM ved hjælp af BERT – KDnuggets

Kildeklynge:

Kildeknude: 2509321

Tidsstempel: Mar 5, 2024

GPT-4: Alt hvad du behøver at vide

GPT-4: Alt hvad du behøver at vide

Kildeklynge:

Kildeknude: 2011204

Tidsstempel: Mar 15, 2023