Concetti che dovresti conoscere prima di entrare nei trasformatori

KDnuggets

Concetti che dovresti conoscere prima di entrare nei trasformatori

Big DataTimestamp: 13 gennaio 2023 12:00

Nodo di origine: 1894868

Ripubblicato da Platone

Seguaci: 0

Le reti neurali apprendono attraverso i numeri, quindi ogni parola verrà mappata su vettori per rappresentare una parola particolare. Il livello di incorporamento può essere pensato come una tabella di ricerca che memorizza gli incorporamenti di parole e li recupera utilizzando gli indici.

Concetti che dovresti conoscere prima di entrare in Transformer

Le parole che hanno lo stesso significato saranno vicine in termini di distanza euclidea/somiglianza coseno. ad esempio, nella rappresentazione della parola sottostante, “sabato”, “domenica” e “lunedì” è associato allo stesso concetto, quindi possiamo vedere che le parole risultano simili.

Concetti che dovresti conoscere prima di entrare in Transformer

La determinazione della posizione della parola, Perché abbiamo bisogno di determinare la posizione della parola? poiché il codificatore del trasformatore non ha ricorrenza come le reti neurali ricorrenti, dobbiamo aggiungere alcune informazioni sulle posizioni negli incorporamenti di input. Questo viene fatto usando la codifica posizionale. Gli autori dell'articolo hanno utilizzato le seguenti funzioni per modellare la posizione di una parola.

Concetti che dovresti conoscere prima di entrare in Transformer

Cercheremo di spiegare la codifica posizionale.

Concetti che dovresti conoscere prima di entrare in Transformer

Qui "pos" si riferisce alla posizione della "parola" nella sequenza. P0 si riferisce all'incorporamento della posizione della prima parola; "d" indica la dimensione dell'incorporamento di parole/token. In questo esempio d=5. Infine, "i" si riferisce a ciascuna delle 5 singole dimensioni dell'incorporamento (ovvero 0, 1,2,3,4)

se "i" varia nell'equazione sopra, otterrai un mucchio di curve con frequenze variabili. Leggere i valori di incorporamento della posizione rispetto a frequenze diverse, fornendo valori diversi a diverse dimensioni di incorporamento per P0 e P4.

Concetti che dovresti conoscere prima di entrare in Transformer

In questa interrogazione, q rappresenta una parola vettoriale, the chiavi k sono tutte le altre parole nella frase, e valore v rappresenta il vettore della parola.

Lo scopo dell'attenzione è calcolare l'importanza del termine chiave rispetto al termine di ricerca relativo alla stessa persona/cosa o concetto.

Nel nostro caso, V è uguale a Q.

Il meccanismo dell'attenzione ci dà l'importanza della parola in una frase.

Concetti che dovresti conoscere prima di entrare in Transformer

Quando calcoliamo il prodotto scalare normalizzato tra la query e le chiavi, otteniamo un tensore che rappresenta l'importanza relativa di ogni altra parola per la query.

Concetti che dovresti conoscere prima di entrare in Transformer

Quando calcoliamo il prodotto scalare tra Q e KT, proviamo a stimare come i vettori (cioè le parole tra query e chiavi) sono allineati e restituiamo un peso per ogni parola nella frase.

Quindi, normalizziamo il risultato al quadrato di d_k e la funzione softmax regolarizza i termini e li ridimensiona tra 0 e 1.

Infine, moltiplichiamo il risultato (cioè i pesi) per il valore (cioè tutte le parole) per ridurre l'importanza delle parole non rilevanti e concentrarci solo sulle parole più importanti.

Il vettore di output dell'attenzione a più teste viene aggiunto all'incorporamento dell'input posizionale originale. Questa è chiamata connessione residua/salta connessione. L'output della connessione residua passa attraverso la normalizzazione del livello. L'uscita residua normalizzata viene fatta passare attraverso una rete di feed-forward puntuale per un'ulteriore elaborazione.

Concetti che dovresti conoscere prima di entrare in Transformer

La maschera è una matrice delle stesse dimensioni dei punteggi di attenzione riempiti con valori di 0 e infiniti negativi.

Concetti che dovresti conoscere prima di entrare in Transformer

Il motivo della maschera è che una volta preso il softmax dei punteggi mascherati, gli infiniti negativi ottengono zero, lasciando zero punteggi di attenzione per i token futuri.

Questo dice al modello di non concentrarsi su quelle parole.

Lo scopo della funzione softmax è quello di prendere numeri reali (positivi e negativi) e trasformarli in numeri positivi che sommano a 1.

Concetti che dovresti conoscere prima di entrare in Transformer

Ravikumar Naduvin è impegnato nella costruzione e nella comprensione delle attività di PNL utilizzando PyTorch.

Originale. Ripubblicato con il permesso.

Altro su questo argomento

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
Fonte: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Timestamp: Gennaio 13, 2023

Di più da KDnuggets

7 cose che mancano agli studenti in un curriculum di data science – KDnuggets

Cluster di origine:

Nodo di origine: 2542010

Timestamp: APRILE 11, 2024

La tabella di marcia definitiva per specializzarsi nel settore tecnologico - KDnuggets

La tabella di marcia definitiva per specializzarsi nel settore tecnologico – KDnuggets

Cluster di origine:

Nodo di origine: 2540850

Timestamp: APRILE 10, 2024

Leggi questo prima di seguire qualsiasi corso gratuito di scienza dei dati - KDnuggets

Leggi questo prima di seguire qualsiasi corso gratuito di scienza dei dati – KDnuggets

Cluster di origine:

Nodo di origine: 2437399

Timestamp: Gennaio 11, 2024

Il caso dei grandi modelli linguistici nostrani - KDnuggets

Il caso dei grandi modelli linguistici nostrani – KDnuggets

Cluster di origine:

Nodo di origine: 2539953

Timestamp: APRILE 9, 2024

Le 3 lezioni più importanti che ho imparato 3 anni nella mia carriera nella scienza dei dati

Cluster di origine:

Nodo di origine: 1083656

Timestamp: Settembre 13, 2021

Usa le tue abilità di scienza dei dati per creare 5 flussi di reddito

Cluster di origine:

Nodo di origine: 2018181

Timestamp: marzo 14, 2023

Scopri come progettare, misurare e implementare test A/B affidabili dal principale esperto di sperimentazione Ronny Kohavi (ex Amazon, Airbnb, Microsoft)

Scopri come progettare, misurare e implementare test A/B affidabili dal principale esperto di sperimentazione Ronny Kohavi (ex Amazon, Airbnb, Microsoft)

Cluster di origine:

Nodo di origine: 1927772

Timestamp: Gennaio 24, 2023

25 corsi gratuiti per padroneggiare data science, ingegneria dei dati, machine learning, MLOps e intelligenza artificiale generativa - KDnuggets

25 corsi gratuiti per padroneggiare data science, ingegneria dei dati, machine learning, MLOps e intelligenza artificiale generativa – KDnuggets

Cluster di origine:

Nodo di origine: 2416182

Timestamp: Dicembre 27, 2023

Le competizioni di Kaggle sono utili per i problemi del mondo reale? - KDnuggets

Le competizioni di Kaggle sono utili per i problemi del mondo reale? – KDnuggets

Cluster di origine:

Nodo di origine: 2324253

Timestamp: Ottobre 12, 2023

7 passaggi per padroneggiare l'ingegneria dei dati - KDnuggets

7 passaggi per padroneggiare l'ingegneria dei dati – KDnuggets

Cluster di origine:

Nodo di origine: 2543152

Timestamp: APRILE 12, 2024

Presentazione di StableCode: un nuovo orizzonte nella codifica assistita dall'intelligenza artificiale - KDnuggets

Presentazione di StableCode: un nuovo orizzonte nella codifica assistita dall'intelligenza artificiale – KDnuggets

Cluster di origine:

Nodo di origine: 2210651

Timestamp: 9 agosto 2023

Lavoro remoto nella scienza dei dati: pro e contro - KDnuggets

Lavoro remoto nella scienza dei dati: pro e contro – KDnuggets

Cluster di origine:

Nodo di origine: 2397138

Timestamp: Novembre 24, 2023