Τα νευρωνικά δίκτυα μαθαίνουν μέσω αριθμών, επομένως κάθε λέξη θα αντιστοιχιστεί σε διανύσματα για να αναπαραστήσει μια συγκεκριμένη λέξη. Το επίπεδο ενσωμάτωσης μπορεί να θεωρηθεί ως ένας πίνακας αναζήτησης που αποθηκεύει τις ενσωματώσεις λέξεων και τις ανακτά χρησιμοποιώντας δείκτες.
Οι λέξεις που έχουν την ίδια σημασία θα είναι κοντινές ως προς την ευκλείδεια απόσταση/ομοιότητα συνημιτόνων. για παράδειγμα, στην παρακάτω αναπαράσταση λέξης, τα «Σάββατο», «Κυριακή» και «Δευτέρα» συνδέονται με την ίδια έννοια, επομένως μπορούμε να δούμε ότι οι λέξεις έχουν ως αποτέλεσμα παρόμοιες.
Ο προσδιορισμός της θέσης της λέξης, Γιατί πρέπει να προσδιορίσουμε τη θέση της λέξης; Επειδή, ο κωδικοποιητής μετασχηματιστή δεν έχει επανάληψη όπως τα επαναλαμβανόμενα νευρωνικά δίκτυα, πρέπει να προσθέσουμε κάποιες πληροφορίες σχετικά με τις θέσεις στις ενσωματώσεις εισόδου. Αυτό γίνεται χρησιμοποιώντας κωδικοποίηση θέσης. Οι συγγραφείς της εργασίας χρησιμοποίησαν τις ακόλουθες συναρτήσεις για να μοντελοποιήσουν τη θέση μιας λέξης.
Θα προσπαθήσουμε να εξηγήσουμε την κωδικοποίηση θέσης.
Εδώ το "pos" αναφέρεται στη θέση της "λέξης" στην ακολουθία. Το P0 αναφέρεται στην ενσωμάτωση θέσης της πρώτης λέξης. Το «d» σημαίνει το μέγεθος της ενσωμάτωσης λέξης/κουπόνι. Σε αυτό το παράδειγμα d=5. Τέλος, το "i" αναφέρεται σε καθεμία από τις 5 επιμέρους διαστάσεις της ενσωμάτωσης (δηλ. 0, 1,2,3,4)
Εάν το "i" ποικίλλει στην παραπάνω εξίσωση, θα λάβετε ένα σωρό καμπύλες με ποικίλες συχνότητες. Διαβάζοντας τις τιμές ενσωμάτωσης θέσης σε διαφορετικές συχνότητες, δίνοντας διαφορετικές τιμές σε διαφορετικές διαστάσεις ενσωμάτωσης για P0 και P4.
Σε αυτή τη ερώτηση, Q αντιπροσωπεύει μια διανυσματική λέξη, το κλειδιά Κ είναι όλες οι άλλες λέξεις στην πρόταση, και τιμή V αντιπροσωπεύει το διάνυσμα της λέξης.
Ο σκοπός της προσοχής είναι να υπολογιστεί η σημασία του βασικού όρου σε σύγκριση με τον όρο ερωτήματος που σχετίζεται με το ίδιο πρόσωπο/πράγμα ή έννοια.
Στην περίπτωσή μας, το V ισούται με Q.
Ο μηχανισμός προσοχής μας δίνει τη σημασία της λέξης σε μια πρόταση.
Όταν υπολογίζουμε το κανονικοποιημένο γινόμενο κουκκίδας μεταξύ του ερωτήματος και των κλειδιών, παίρνουμε έναν τανυστή που αντιπροσωπεύει τη σχετική σημασία της μιας άλλης λέξης για το ερώτημα.
Κατά τον υπολογισμό του γινόμενου κουκκίδων μεταξύ Q και KT, προσπαθούμε να υπολογίσουμε πώς ευθυγραμμίζονται τα διανύσματα (δηλαδή οι λέξεις μεταξύ ερωτήματος και κλειδιών) και επιστρέφουμε ένα βάρος για κάθε λέξη στην πρόταση.
Στη συνέχεια, κανονικοποιούμε το αποτέλεσμα στο τετράγωνο του d_k και η συνάρτηση softmax κανονικοποιεί τους όρους και τους επανακλιμακώνει μεταξύ 0 και 1.
Τέλος, πολλαπλασιάζουμε το αποτέλεσμα (π.χ. βάρη) με την τιμή (δηλαδή όλες τις λέξεις) για να μειώσουμε τη σημασία των μη σχετικών λέξεων και να επικεντρωθούμε μόνο στις πιο σημαντικές λέξεις.
Το διάνυσμα εξόδου προσοχής πολλαπλών κεφαλών προστίθεται στην αρχική ενσωμάτωση εισόδου θέσης. Αυτό ονομάζεται υπολειπόμενη σύνδεση/σύνδεση παράκαμψης. Η έξοδος της υπολειπόμενης σύνδεσης περνάει από την κανονικοποίηση του στρώματος. Η κανονικοποιημένη υπολειμματική έξοδος διέρχεται μέσω ενός δικτύου τροφοδοσίας προς τα σημεία για περαιτέρω επεξεργασία.
Η μάσκα είναι μια μήτρα που έχει το ίδιο μέγεθος με τις βαθμολογίες προσοχής που είναι γεμάτες με τιμές 0 και αρνητικά άπειρα.
Ο λόγος για τη μάσκα είναι ότι μόλις λάβετε το softmax των καλυμμένων βαθμολογιών, τα αρνητικά άπειρα μηδενίζονται, αφήνοντας μηδενική βαθμολογία προσοχής για τα μελλοντικά διακριτικά.
Αυτό λέει στο μοντέλο να μην εστιάζει σε αυτές τις λέξεις.
Ο σκοπός της συνάρτησης softmax είναι να αρπάξει πραγματικούς αριθμούς (θετικούς και αρνητικούς) και να τους μετατρέψει σε θετικούς αριθμούς που αθροίζονται σε 1.
Ravikumar Naduvin είναι απασχολημένος με τη δημιουργία και την κατανόηση εργασιών NLP χρησιμοποιώντας το PyTorch.
Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer
- 1
- a
- Σχετικά
- πάνω από
- προστιθέμενη
- κατά
- ευθυγραμμισμένος
- Όλα
- και
- συσχετισμένη
- προσοχή
- συγγραφείς
- επειδή
- πριν
- παρακάτω
- μεταξύ
- Κτίριο
- τσαμπί
- που ονομάζεται
- περίπτωση
- Κλεισιμο
- σύγκριση
- Υπολογίστε
- χρήση υπολογιστή
- έννοια
- έννοιες
- σύνδεση
- Προσδιορίστε
- καθορίζοντας
- διαφορετικές
- Διαστάσεις
- DOT
- κάθε
- εκτίμηση
- παράδειγμα
- Εξηγήστε
- γεμάτο
- Τελικά
- Όνομα
- Συγκέντρωση
- Εξής
- λειτουργία
- λειτουργίες
- περαιτέρω
- μελλοντικός
- παίρνω
- να πάρει
- GitHub
- δίνει
- Δίνοντας
- πηγαίνει
- πιάσε
- Πως
- HTTPS
- σπουδαιότητα
- σημαντικό
- in
- Δείκτες
- ατομικές
- πληροφορίες
- εισαγωγή
- KDnuggets
- Κλειδί
- πλήκτρα
- Ξέρω
- στρώμα
- ΜΑΘΑΊΝΩ
- αφήνοντας
- αναζήτηση
- μάσκα
- Μήτρα
- νόημα
- μέσα
- μηχανισμός
- μοντέλο
- πλέον
- Ανάγκη
- αρνητικός
- δίκτυο
- δίκτυα
- Νευρικός
- νευρωνικά δίκτυα
- nlp
- αριθμοί
- πρωτότυπο
- ΑΛΛΑ
- Χαρτί
- Ειδικότερα
- πέρασε
- άδεια
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- θέση
- θέσεις
- θετικός
- μεταποίηση
- Προϊόν
- σκοπός
- βάζω
- pytorch
- Ανάγνωση
- πραγματικός
- λόγος
- επανάληψη
- μείωση
- αναφέρεται
- σχετίζεται με
- εκπροσωπώ
- αντιπροσώπευση
- αντιπροσωπεύει
- αποτέλεσμα
- με αποτέλεσμα
- απόδοση
- ίδιο
- ποινή
- Ακολουθία
- θα πρέπει να
- παρόμοιες
- Μέγεθος
- So
- μερικοί
- Εις το τετραγωνο
- καταστήματα
- τραπέζι
- Πάρτε
- εργασίες
- λέει
- όροι
- Η
- σκέψη
- Μέσω
- προς την
- κουπόνια
- μετασχηματιστές
- ΣΤΡΟΦΗ
- κατανόηση
- us
- αξία
- Αξίες
- βάρος
- Ποιό
- θα
- λέξη
- λόγια
- zephyrnet
- μηδέν