Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στους μετασχηματιστές

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στους μετασχηματιστές

Κόμβος πηγής: 1894868

Τα νευρωνικά δίκτυα μαθαίνουν μέσω αριθμών, επομένως κάθε λέξη θα αντιστοιχιστεί σε διανύσματα για να αναπαραστήσει μια συγκεκριμένη λέξη. Το επίπεδο ενσωμάτωσης μπορεί να θεωρηθεί ως ένας πίνακας αναζήτησης που αποθηκεύει τις ενσωματώσεις λέξεων και τις ανακτά χρησιμοποιώντας δείκτες.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Οι λέξεις που έχουν την ίδια σημασία θα είναι κοντινές ως προς την ευκλείδεια απόσταση/ομοιότητα συνημιτόνων. για παράδειγμα, στην παρακάτω αναπαράσταση λέξης, τα «Σάββατο», «Κυριακή» και «Δευτέρα» συνδέονται με την ίδια έννοια, επομένως μπορούμε να δούμε ότι οι λέξεις έχουν ως αποτέλεσμα παρόμοιες.
 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer

Ο προσδιορισμός της θέσης της λέξης, Γιατί πρέπει να προσδιορίσουμε τη θέση της λέξης; Επειδή, ο κωδικοποιητής μετασχηματιστή δεν έχει επανάληψη όπως τα επαναλαμβανόμενα νευρωνικά δίκτυα, πρέπει να προσθέσουμε κάποιες πληροφορίες σχετικά με τις θέσεις στις ενσωματώσεις εισόδου. Αυτό γίνεται χρησιμοποιώντας κωδικοποίηση θέσης. Οι συγγραφείς της εργασίας χρησιμοποίησαν τις ακόλουθες συναρτήσεις για να μοντελοποιήσουν τη θέση μιας λέξης.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Θα προσπαθήσουμε να εξηγήσουμε την κωδικοποίηση θέσης.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Εδώ το "pos" αναφέρεται στη θέση της "λέξης" στην ακολουθία. Το P0 αναφέρεται στην ενσωμάτωση θέσης της πρώτης λέξης. Το «d» σημαίνει το μέγεθος της ενσωμάτωσης λέξης/κουπόνι. Σε αυτό το παράδειγμα d=5. Τέλος, το "i" αναφέρεται σε καθεμία από τις 5 επιμέρους διαστάσεις της ενσωμάτωσης (δηλ. 0, 1,2,3,4)

Εάν το "i" ποικίλλει στην παραπάνω εξίσωση, θα λάβετε ένα σωρό καμπύλες με ποικίλες συχνότητες. Διαβάζοντας τις τιμές ενσωμάτωσης θέσης σε διαφορετικές συχνότητες, δίνοντας διαφορετικές τιμές σε διαφορετικές διαστάσεις ενσωμάτωσης για P0 και P4.

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Σε αυτή τη ερώτηση, Q αντιπροσωπεύει μια διανυσματική λέξη, το κλειδιά Κ είναι όλες οι άλλες λέξεις στην πρόταση, και τιμή V αντιπροσωπεύει το διάνυσμα της λέξης.

Ο σκοπός της προσοχής είναι να υπολογιστεί η σημασία του βασικού όρου σε σύγκριση με τον όρο ερωτήματος που σχετίζεται με το ίδιο πρόσωπο/πράγμα ή έννοια.

Στην περίπτωσή μας, το V ισούται με Q.

Ο μηχανισμός προσοχής μας δίνει τη σημασία της λέξης σε μια πρόταση.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Όταν υπολογίζουμε το κανονικοποιημένο γινόμενο κουκκίδας μεταξύ του ερωτήματος και των κλειδιών, παίρνουμε έναν τανυστή που αντιπροσωπεύει τη σχετική σημασία της μιας άλλης λέξης για το ερώτημα.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Κατά τον υπολογισμό του γινόμενου κουκκίδων μεταξύ Q και KT, προσπαθούμε να υπολογίσουμε πώς ευθυγραμμίζονται τα διανύσματα (δηλαδή οι λέξεις μεταξύ ερωτήματος και κλειδιών) και επιστρέφουμε ένα βάρος για κάθε λέξη στην πρόταση.

Στη συνέχεια, κανονικοποιούμε το αποτέλεσμα στο τετράγωνο του d_k και η συνάρτηση softmax κανονικοποιεί τους όρους και τους επανακλιμακώνει μεταξύ 0 και 1.

Τέλος, πολλαπλασιάζουμε το αποτέλεσμα (π.χ. βάρη) με την τιμή (δηλαδή όλες τις λέξεις) για να μειώσουμε τη σημασία των μη σχετικών λέξεων και να επικεντρωθούμε μόνο στις πιο σημαντικές λέξεις.

Το διάνυσμα εξόδου προσοχής πολλαπλών κεφαλών προστίθεται στην αρχική ενσωμάτωση εισόδου θέσης. Αυτό ονομάζεται υπολειπόμενη σύνδεση/σύνδεση παράκαμψης. Η έξοδος της υπολειπόμενης σύνδεσης περνάει από την κανονικοποίηση του στρώματος. Η κανονικοποιημένη υπολειμματική έξοδος διέρχεται μέσω ενός δικτύου τροφοδοσίας προς τα σημεία για περαιτέρω επεξεργασία.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer

Η μάσκα είναι μια μήτρα που έχει το ίδιο μέγεθος με τις βαθμολογίες προσοχής που είναι γεμάτες με τιμές 0 και αρνητικά άπειρα.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer
 

Ο λόγος για τη μάσκα είναι ότι μόλις λάβετε το softmax των καλυμμένων βαθμολογιών, τα αρνητικά άπειρα μηδενίζονται, αφήνοντας μηδενική βαθμολογία προσοχής για τα μελλοντικά διακριτικά.

Αυτό λέει στο μοντέλο να μην εστιάζει σε αυτές τις λέξεις.

Ο σκοπός της συνάρτησης softmax είναι να αρπάξει πραγματικούς αριθμούς (θετικούς και αρνητικούς) και να τους μετατρέψει σε θετικούς αριθμούς που αθροίζονται σε 1.

 

Έννοιες που πρέπει να γνωρίζετε πριν μπείτε στο Transformer

 
 
Ravikumar Naduvin είναι απασχολημένος με τη δημιουργία και την κατανόηση εργασιών NLP χρησιμοποιώντας το PyTorch.

 
Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.
 

Σφραγίδα ώρας:

Περισσότερα από KDnuggets