Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformers

KDnuggets

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformers

Datele mariMarca temporală: 13 ianuarie 2023 12:00

Nodul sursă: 1894868

Republicat de Platon

Urmaritori: 0

Rețelele neuronale învață prin numere, astfel încât fiecare cuvânt va fi mapat la vectori pentru a reprezenta un anumit cuvânt. Stratul de încorporare poate fi gândit ca un tabel de căutare care stochează înglobările de cuvinte și le regăsește folosind indici.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Cuvintele care au același înțeles vor fi apropiate în ceea ce privește distanța euclidiană/asemănarea cosinusului. de exemplu, în reprezentarea cuvântului de mai jos, „sâmbătă”, „duminică” și „luni” sunt asociate cu același concept, astfel încât putem vedea că cuvintele sunt similare.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Determinarea poziției cuvântului, De ce trebuie să stabilim poziția cuvântului? Deoarece, codificatorul transformatorului nu are recurență ca rețelele neuronale recurente, trebuie să adăugăm câteva informații despre poziții în înglobările de intrare. Acest lucru se face folosind codificarea pozițională. Autorii lucrării au folosit următoarele funcții pentru a modela poziția unui cuvânt.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Vom încerca să explicăm codificarea pozițională.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Aici „pos” se referă la poziția „cuvântului” în secvență. P0 se referă la încorporarea poziției primului cuvânt; „d” înseamnă dimensiunea încorporarii cuvântului/jetonului. În acest exemplu d=5. În cele din urmă, „i” se referă la fiecare dintre cele 5 dimensiuni individuale ale înglobării (adică 0, 1,2,3,4)

dacă „i” variază în ecuația de mai sus, veți obține o grămadă de curbe cu frecvențe diferite. Citirea valorilor de încorporare a poziției față de frecvențe diferite, oferind valori diferite la diferite dimensiuni de încorporare pentru P0 și P4.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

În acest interogare, Q reprezintă un cuvânt vector, the cheile K sunt toate celelalte cuvinte din propoziție și valoarea V reprezintă vectorul cuvântului.

Scopul atenției este de a calcula importanța termenului cheie în comparație cu termenul de interogare legat de aceeași persoană/lucru sau concept.

În cazul nostru, V este egal cu Q.

Mecanismul atenției ne oferă importanța cuvântului dintr-o propoziție.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Când calculăm produsul punctual normalizat dintre interogare și chei, obținem un tensor care reprezintă importanța relativă a fiecărui cuvânt pentru interogare.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Când calculăm produsul punctual între Q și KT, încercăm să estimăm modul în care vectorii (adică cuvintele dintre interogare și chei) sunt aliniați și returnăm o pondere pentru fiecare cuvânt din propoziție.

Apoi, normalizăm rezultatul pătrat al lui d_k și funcția softmax regularizează termenii și îi redimensionează între 0 și 1.

În cele din urmă, înmulțim rezultatul (adică ponderile) cu valoarea (adică toate cuvintele) pentru a reduce importanța cuvintelor nerelevante și ne concentrăm doar pe cuvintele cele mai importante.

Vectorul de ieșire a atenției cu mai multe capete este adăugat la încorporarea de intrare pozițională inițială. Aceasta se numește conexiune reziduală/omitere conexiune. Ieșirea conexiunii reziduale trece prin normalizarea stratului. Ieșirea reziduală normalizată este trecută printr-o rețea de feed-forward punctual pentru procesare ulterioară.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Masca este o matrice care are aceeași dimensiune cu scorurile de atenție umplute cu valori de 0 și infinitate negative.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Motivul pentru măști este că odată ce luați softmax-ul scorurilor mascate, infiniturile negative devin zero, lăsând scoruri de atenție zero pentru viitoarele jetoane.

Acest lucru îi spune modelului să nu se concentreze pe acele cuvinte.

Scopul funcției softmax este de a lua numere reale (pozitive și negative) și de a le transforma în numere pozitive care însumează 1.

Concepte pe care ar trebui să le cunoașteți înainte de a intra în Transformer

Ravikumar Naduvin este ocupat cu construirea și înțelegerea sarcinilor NLP folosind PyTorch.

Original. Repostat cu permisiunea.

Mai multe despre acest subiect

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
Sursa: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Timestamp-ul: Ianuarie 13, 2023

Mai mult de la KDnuggets

Am creat o aplicație AI în 3 zile - KDnuggets

Am creat o aplicație AI în 3 zile – KDnuggets

Cluster sursă:

Nodul sursă: 2196805

Timestamp-ul: August 4, 2023

4 moduri de a genera venituri pasive folosind ChatGPT

4 moduri de a genera venituri pasive folosind ChatGPT

Cluster sursă:

Nodul sursă: 2005045

Timestamp-ul: Mar 10, 2023

Ultima colecție de 50 de cursuri gratuite pentru stăpânirea științei datelor - KDnuggets

Ultima colecție de 50 de cursuri gratuite pentru stăpânirea științei datelor – KDnuggets

Cluster sursă:

Nodul sursă: 2551893

Timestamp-ul: Aprilie 19, 2024

Maximizați performanța în aplicațiile Edge AI – KDnuggets

Cluster sursă:

Nodul sursă: 2311504

Timestamp-ul: Octombrie 5, 2023

5 cursuri gratuite pentru a stăpâni matematica pentru știința datelor - KDnuggets

5 cursuri gratuite pentru a stăpâni matematica pentru știința datelor – KDnuggets

Cluster sursă:

Nodul sursă: 2548156

Timestamp-ul: Aprilie 15, 2024

Master Data Science într-un an: Ghidul suprem pentru o învățare la prețuri accesibile, în ritm propriu - KDnuggets

Master Data Science într-un an: Ghidul suprem pentru învățarea la prețuri accesibile, în ritm propriu - KDnuggets

Cluster sursă:

Nodul sursă: 2507185

Timestamp-ul: Mar 7, 2024

8 Alternativă open-source la ChatGPT și Bard

8 Alternativă open-source la ChatGPT și Bard

Cluster sursă:

Nodul sursă: 2050235

Timestamp-ul: Aprilie 6, 2023

Învățare profundă cu R - KDnuggets

Învățare profundă cu R – KDnuggets

Cluster sursă:

Nodul sursă: 2114895

Timestamp-ul: 30 Mai, 2023

5 platforme gratuite pentru construirea unui portofoliu puternic de știință a datelor – KDnuggets

Cluster sursă:

Nodul sursă: 2309815

Timestamp-ul: Octombrie 5, 2023

7 cele mai bune instrumente pentru urmărirea experimentelor de învățare automată

7 cele mai bune instrumente pentru urmărirea experimentelor de învățare automată

Cluster sursă:

Nodul sursă: 1980665

Timestamp-ul: Februarie 20, 2023

Reglarea fină a modelelor de limbaj OpenAI cu date etichetate cu zgomot

Cluster sursă:

Nodul sursă: 2077011

Timestamp-ul: Aprilie 28, 2023

Cele mai frecvente întrebări și răspunsuri la interviu pentru știința datelor

Cluster sursă:

Nodul sursă: 1860815

Timestamp-ul: August 5, 2021