Το Amazon Machine Learning Solutions Lab (MLSL) δημιούργησε πρόσφατα ένα εργαλείο για σχολιασμό κειμένου με αναγνώριση επωνυμίας οντοτήτων (NER) και ετικέτες σχέσεων χρησιμοποιώντας Amazon SageMaker Ground Αλήθεια. Οι σχολιαστές χρησιμοποιούν αυτό το εργαλείο για να επισημαίνουν κείμενο με επώνυμες οντότητες και να συνδέουν τις σχέσεις τους, δημιουργώντας έτσι ένα σύνολο δεδομένων για την εκπαίδευση μοντέλων μηχανικής εκμάθησης (ML) τελευταίας τεχνολογίας επεξεργασίας φυσικής γλώσσας (NLP). Το πιο σημαντικό, αυτό είναι πλέον δημόσια διαθέσιμο σε όλους τους πελάτες AWS.
Περίπτωση χρήσης πελατών: Booking.com
Booking.com είναι μία από τις κορυφαίες διαδικτυακές πλατφόρμες ταξιδιών παγκοσμίως. Η κατανόηση του τι λένε οι πελάτες για τα 28 εκατομμύρια+ καταχωρίσεις ακινήτων της εταιρείας στην πλατφόρμα είναι απαραίτητη για τη διατήρηση μιας κορυφαίας εμπειρίας πελάτη. Προηγουμένως, η Booking.com μπορούσε να χρησιμοποιήσει μόνο την παραδοσιακή ανάλυση συναισθημάτων για να ερμηνεύσει σε κλίμακα τις κριτικές που δημιουργούνται από τους πελάτες. Προσπαθώντας να αναβαθμίσει την ιδιαιτερότητα αυτών των ερμηνειών, η Booking.com στράφηκε πρόσφατα στο MLSL για βοήθεια σχετικά με τη δημιουργία ενός προσαρμοσμένου σχολιασμένου συνόλου δεδομένων για την εκπαίδευση ενός μοντέλου ανάλυσης συναισθήματος που βασίζεται σε πτυχές.
Η παραδοσιακή ανάλυση συναισθημάτων είναι η διαδικασία ταξινόμησης ενός κειμένου ως θετικού, αρνητικού ή ουδέτερου ως μοναδικό συναίσθημα. Αυτό λειτουργεί για να κατανοήσει ευρέως εάν οι χρήστες είναι ικανοποιημένοι ή δυσαρεστημένοι με μια συγκεκριμένη εμπειρία. Για παράδειγμα, με την παραδοσιακή ανάλυση συναισθημάτων, το ακόλουθο κείμενο μπορεί να ταξινομηθεί ως "ουδέτερο":
Η διαμονή μας στο ξενοδοχείο ήταν ωραία. Το προσωπικό ήταν φιλικό και τα δωμάτια ήταν καθαρά, αλλά τα κρεβάτια μας ήταν αρκετά άβολα.
Η ανάλυση συναισθήματος βάσει πτυχών προσφέρει μια πιο λεπτή κατανόηση του περιεχομένου. Στην περίπτωση της Booking.com, αντί να λαμβάνει μια κριτική πελάτη στο σύνολό της και να την ταξινομεί κατηγορηματικά, μπορεί να πάρει συναισθήματα μέσα από μια κριτική και να την εκχωρήσει σε συγκεκριμένες πτυχές. Για παράδειγμα, οι κριτικές πελατών για ένα συγκεκριμένο ξενοδοχείο μπορεί να επαινούν την άψογη πισίνα και το γυμναστήριο, αλλά να δίνουν κριτική ανατροφοδότηση για το εστιατόριο και το σαλόνι.
Η δήλωση που θα είχε ταξινομηθεί ως «ουδέτερη» από την παραδοσιακή ανάλυση συναισθήματος, με την ανάλυση συναισθήματος που βασίζεται σε πτυχές, θα γίνει:
Η διαμονή μας στο ξενοδοχείο ήταν ωραία. Το προσωπικό ήταν φιλικό και τα δωμάτια ήταν καθαρά, αλλά τα κρεβάτια μας ήταν αρκετά άβολα.
- Ξενοδοχείο: Θετικό
- Προσωπικό: Θετικό
- Δωμάτιο: Θετικό
- Κρεβάτια: Αρνητικά
Η Booking.com προσπάθησε να δημιουργήσει ένα προσαρμοσμένο μοντέλο ανάλυσης συναισθήματος βάσει πτυχών που θα τους έλεγε ποια συγκεκριμένα μέρη της εμπειρίας του επισκέπτη (από μια λίστα 50+ πτυχών) ήταν θετικός, αρνητικός, ή ουδέτερος.
Προτού η Booking.com μπορέσει να δημιουργήσει ένα εκπαιδευτικό σύνολο δεδομένων για αυτό το μοντέλο, χρειαζόταν έναν τρόπο να το σχολιάσουν. Το εργαλείο σχολιασμού της MLSL παρείχε την τόσο αναγκαία προσαρμοσμένη λύση. Η ανθρώπινη κριτική πραγματοποιήθηκε σε μια μεγάλη συλλογή από κριτικές ξενοδοχείων. Στη συνέχεια, οι σχολιαστές ολοκλήρωσαν τον σχολιασμό επώνυμης οντότητας σε διαστήματα κειμένου και φράσεις συναισθημάτων και εμπειρίας επισκέπτη προτού συνδέσουν τα κατάλληλα διαστήματα μεταξύ τους.
Το νέο μοντέλο που βασίζεται σε πτυχές επιτρέπει στην Booking.com να εξατομικεύει τα καταλύματα και τις κριτικές στους πελάτες της. Η ανάδειξη των θετικών και αρνητικών πλευρών κάθε καταλύματος δίνει τη δυνατότητα στους πελάτες να επιλέξουν το τέλειο ταίρι τους. Επιπλέον, διαφορετικοί πελάτες ενδιαφέρονται για διαφορετικές πτυχές του καταλύματος και το νέο μοντέλο ανοίγει την ευκαιρία να δείξει τις πιο σχετικές κριτικές για τον καθένα.
Απαιτήσεις επισήμανσης
Αν και το Ground Truth παρέχει μια ενσωματωμένη δυνατότητα σχολιασμού κειμένου NER, δεν παρέχει τη δυνατότητα σύνδεσης οντοτήτων μεταξύ τους. Έχοντας αυτό υπόψη, η Booking.com και η MLSL επεξεργάστηκαν τις ακόλουθες απαιτήσεις υψηλού επιπέδου για ένα νέο εργαλείο επισήμανσης κειμένου αναγνώρισης οντοτήτων με όνομα που:
- Δέχεται ως είσοδο: κείμενο, ετικέτες οντοτήτων, ετικέτες σχέσεων, να ετικέτες ταξινόμησης.
- Δέχεται προαιρετικά ως εισαγωγή προσχολιασμένων δεδομένων με την προηγούμενη ετικέτα και σχολιασμούς σχέσης.
- Παρουσιάζει στον σχολιαστή κείμενο είτε χωρίς σχολιασμό είτε με προσχολιασμένο κείμενο.
- Επιτρέπει στους σχολιαστές να επισημαίνουν και να σχολιάζουν αυθαίρετο κείμενο με ετικέτα οντότητας.
- Επιτρέπει στους σχολιαστές να δημιουργούν σχέσεις μεταξύ δύο σχολιασμών οντοτήτων.
- Επιτρέπει στους σχολιαστές να πλοηγούνται εύκολα σε μεγάλο αριθμό ετικετών οντοτήτων.
- Υποστηρίζει την ομαδοποίηση ετικετών οντοτήτων σε κατηγορίες.
- Να επιτρέπονται αλληλεπικαλυπτόμενες σχέσεις, πράγμα που σημαίνει ότι το ίδιο τμήμα κειμένου με σχολιασμό μπορεί να συσχετιστεί με περισσότερα από ένα άλλα σχολιασμένα τμήματα κειμένου.
- Επιτρέπει επικαλυπτόμενους σχολιασμούς ετικετών οντοτήτων, πράγμα που σημαίνει ότι δύο σχολιασμοί μπορούν να επικαλύπτουν το ίδιο κομμάτι κειμένου. Για παράδειγμα, το κείμενο "Seattle Space Needle" μπορεί να έχει τόσο τους σχολιασμούς "Seattle" → "locations" και "Seattle Space Needle" → "attractions".
- Η μορφή εξόδου είναι συμβατή με τη μορφή εισόδου και μπορεί να ανατροφοδοτηθεί σε επόμενες εργασίες επισήμανσης.
- Υποστηρίζει κωδικοποιημένο κείμενο UTF-8 που περιέχει emoji και άλλους χαρακτήρες πολλών byte.
- Υποστηρίζει γλώσσες από αριστερά προς τα δεξιά.
Δείγμα σχολιασμού
Σκεφτείτε το ακόλουθο έγγραφο:
Μας άρεσε πολύ η τοποθεσία αυτού του ξενοδοχείου! Το σαλόνι στον τελευταίο όροφο μας έδωσε την τέλεια θέα της διαστημικής βελόνας. Είναι επίσης σε μικρή απόσταση με το αυτοκίνητο από την αγορά λούτσων και την προκυμαία.
Το φαγητό ήταν διαθέσιμο μόνο μέσω της υπηρεσίας δωματίου, κάτι που ήταν λίγο απογοητευτικό, αλλά είναι λογικό σε αυτόν τον κόσμο μετά την πανδημία.
Συνολικά, μια εμπειρία σε λογικές τιμές.
Η φόρτωση αυτού του εγγράφου στο νέο σχολιασμό NER παρουσιάζει έναν εργαζόμενο με την ακόλουθη διεπαφή:
Στην περίπτωση αυτή, η δουλειά του εργαζομένου είναι:
- Επισήμανση οντοτήτων που σχετίζονται με το ακίνητο (τοποθεσία, τιμή, φαγητό κ.λπ.)
- Επισήμανση οντοτήτων που σχετίζονται με το συναίσθημα (θετικό, αρνητικό ή ουδέτερο)
- Συνδέστε επώνυμες οντότητες που σχετίζονται με ιδιοκτησία με λέξεις-κλειδιά που σχετίζονται με συναίσθημα για να αποτυπώσετε με ακρίβεια την εμπειρία του επισκέπτη
Η ταχύτητα σχολιασμού ήταν μια σημαντική παράμετρος του εργαλείου. Χρησιμοποιώντας μια σειρά από εύχρηστες συντομεύσεις πληκτρολογίου και χειρονομίες του ποντικιού, οι σχολιαστές μπορούν να οδηγήσουν τη διεπαφή και:
- Προσθέστε και αφαιρέστε σχολιασμούς οντοτήτων με όνομα
- Προσθέστε σχέσεις μεταξύ ονομασμένων οντοτήτων
- Μετάβαση στην αρχή και στο τέλος του εγγράφου
- Υποβάλετε το έγγραφο
Επιπλέον, υπάρχει υποστήριξη για επικαλυπτόμενες ετικέτες. Για παράδειγμα, Seattle Space Needle
: σε αυτή τη φράση, Seattle
σχολιάζεται τόσο ως τοποθεσία από μόνη της όσο και ως μέρος του ονόματος του αξιοθέατου.
Ο ολοκληρωμένος σχολιασμός παρέχει μια πιο πλήρη, λεπτή ανάλυση των δεδομένων:
Οι σχέσεις μπορούν να διαμορφωθούν σε πολλά επίπεδα, από κατηγορίες οντοτήτων σε άλλες κατηγορίες οντοτήτων (για παράδειγμα, από "τροφή" έως "συναίσθημα") ή μεταξύ μεμονωμένων τύπων οντοτήτων. Οι σχέσεις είναι κατευθυνόμενες, επομένως οι σχολιαστές μπορούν να συνδέσουν μια πτυχή όπως το φαγητό με ένα συναίσθημα, αλλά όχι το αντίστροφο (εκτός αν ενεργοποιηθεί ρητά). Κατά τη σχεδίαση σχέσεων, το εργαλείο σχολιασμού θα συναγάγει αυτόματα την ετικέτα και την κατεύθυνση της σχέσης.
Διαμόρφωση του Εργαλείου σχολιασμού NER
Σε αυτήν την ενότητα, καλύπτουμε τον τρόπο προσαρμογής του εργαλείου σχολιασμού NER για περιπτώσεις χρήσης που αφορούν συγκεκριμένους πελάτες. Αυτό περιλαμβάνει τη διαμόρφωση:
- Το κείμενο εισαγωγής για σχολιασμό
- Ετικέτες οντοτήτων
- Ετικέτες Σχέσεων
- Ετικέτες ταξινόμησης
- Προσχολιασμένα δεδομένα
- Οδηγίες εργαζομένων
Θα καλύψουμε τις ιδιαιτερότητες των μορφών εγγράφων εισόδου και εξόδου, καθώς και ορισμένα παραδείγματα για το καθένα.
Μορφή εγγράφου εισαγωγής
Το εργαλείο σχολιασμού NER αναμένει το ακόλουθο έγγραφο εισόδου με μορφή JSON (Τα πεδία με ερωτηματικό δίπλα στο όνομα είναι προαιρετικά).
Με λίγα λόγια, η μορφή εισαγωγής έχει τα εξής χαρακτηριστικά:
- Οποιοδήποτε από τα δύο
entityLabels
orclassificationLabels
(ή και τα δύο) απαιτείται σχολιασμός. - If
entityLabels
δίνονται, λοιπόνrelationshipLabels
μπορούν να προστεθούν. - Μπορούν να επιτραπούν σχέσεις μεταξύ διαφορετικών ετικετών οντοτήτων/κατηγοριών ή συνδυασμού αυτών.
- Η «πηγή» μιας σχέσης είναι η οντότητα με την οποία ξεκινά το κατευθυνόμενο βέλος, ενώ ο «στόχος» είναι εκεί που κατευθύνεται.
Πεδίο | Χαρακτηριστικά | Περιγραφή |
κείμενο | κορδόνι | Απαιτείται. Εισαγωγή κειμένου για σχολιασμό. |
tokenRows | σειρά[][] | Προαιρετικός. Προσαρμοσμένο διακριτικό του κειμένου εισαγωγής. Πίνακας συστοιχιών χορδών. Ο πίνακας ανωτάτου επιπέδου αντιπροσωπεύει κάθε σειρά κειμένου (διακοπές γραμμής) και ο πίνακας δεύτερου επιπέδου αντιπροσωπεύει διακριτικά σε κάθε σειρά. Όλοι οι χαρακτήρες/ρούνες στο κείμενο εισαγωγής πρέπει να υπολογίζονται σε tokenRows, συμπεριλαμβανομένου τυχόν λευκού διαστήματος. |
αναγνωριστικό έγγραφο | κορδόνι | Προαιρετικός. Προαιρετική τιμή για τους πελάτες να παρακολουθούν το έγγραφο που σχολιάζεται. |
entityLabels | αντικείμενο[] | Απαιτείται εάν οι ετικέτες ταξινόμησης είναι κενές. Σειρά ετικετών οντοτήτων. |
entityLabels[].name | κορδόνι | Απαιτείται. Εμφανιζόμενο όνομα ετικέτας οντότητας. |
entityLabels[].category | κορδόνι | Προαιρετικός. Όνομα κατηγορίας ετικέτας οντότητας. |
entityLabels[].shortName | κορδόνι | Προαιρετικός. Εμφανίστε αυτό το κείμενο πάνω από σχολιασμένες οντότητες αντί για το πλήρες όνομα. |
entityLabels[].shortCategory | κορδόνι | Προαιρετικός. Εμφανίστε αυτό το κείμενο στο αναπτυσσόμενο μενού επιλογής σχολιασμού οντοτήτων αντί για τα πρώτα τέσσερα γράμματα του ονόματος της κατηγορίας. |
entityLabels.color | κορδόνι | Προαιρετικός. Δεκαεξαδικός χρωματικός κώδικας με πρόθεμα "#". Εάν είναι κενό, τότε θα εκχωρήσει αυτόματα ένα χρώμα στην ετικέτα οντότητας. |
Ετικέτες σχέσης | αντικείμενο[] | Προαιρετικός. Σειρά ετικετών σχέσεων. |
σχέσηΕτικέτες[].όνομα | κορδόνι | Απαιτείται. Εμφανιζόμενο όνομα ετικέτας σχέσης. |
RelationLabels[].allowedΣχέσεις | αντικείμενο[] | Προαιρετικός. Πίνακας τιμών που περιορίζουν τους τύπους ετικετών οντοτήτων προέλευσης και προορισμού στους οποίους μπορεί να εκχωρηθεί αυτή η σχέση. Κάθε στοιχείο στον πίνακα είναι "OR'ed" μαζί. |
relativeLabels[].allowedRelationships[].sourceEntityLabelCategories | σειρά[] | Απαιτείται για τον ορισμό είτε sourceEntityLabelCategories είτε sourceEntityLabels (ή και τα δύο). Λίστα τύπων κατηγορίας ετικετών νομικής πηγής οντοτήτων για αυτήν τη σχέση. |
relativeLabels[].allowedRelationships[].targetEntityLabelCategories | σειρά[] | Απαιτείται για τον ορισμό είτε targetEntityLabelCategories είτε targetEntityLabels (ή και τα δύο). Λίστα τύπων κατηγορίας ετικετών νομικής οντότητας-στόχου για αυτήν τη σχέση. |
relativeLabels[].allowedRelationships[].sourceEntityLabels | σειρά[] | Απαιτείται για τον ορισμό είτε sourceEntityLabelCategories είτε sourceEntityLabels (ή και τα δύο). Λίστα τύπων ετικετών νομικής πηγής οντοτήτων για αυτήν τη σχέση. |
relativeLabels[].allowedRelationships[].sourceEntityLabels | σειρά[] | Απαιτείται για τον ορισμό είτε targetEntityLabelCategories είτε targetEntityLabels (ή και τα δύο). Λίστα τύπων ετικετών νομικής οντότητας-στόχου για αυτήν τη σχέση. |
Ετικέτες ταξινόμησης | σειρά[] | Απαιτείται εάν το entityLabels είναι κενό. Κατάλογος ετικετών ταξινόμησης σε επίπεδο εγγράφων. |
entityAnnotations | αντικείμενο[] | Προαιρετικός. Πίνακας σχολιασμών οντοτήτων για προσχολιασμό κειμένου εισαγωγής. |
entityAnnotations[].id | κορδόνι | Απαιτείται. Μοναδικό αναγνωριστικό για αυτόν τον σχολιασμό οντότητας. Χρησιμοποιείται για την αναφορά σε αυτήν την οντότητα στις σχέσειςAnnotations. |
entityAnnotations[].start | αριθμός | Απαιτείται. Έναρξη μετατόπισης ρούνων αυτού του σχολιασμού οντότητας. |
entityAnnotations[].end | αριθμός | Απαιτείται. Μετατόπιση τελικού ρούνου αυτού του σχολιασμού οντότητας. |
entityAnnotations[].κείμενο | κορδόνι | Απαιτείται. Περιεχόμενο κειμένου μεταξύ της μετατόπισης του ρούνου έναρξης και τέλους. |
entityAnnotations[].label | κορδόνι | Απαιτείται. Όνομα ετικέτας συσχετισμένης οντότητας (από τα ονόματα στο entityLabels). |
entityAnnotations[].labelCategory | κορδόνι | Προαιρετικά. Κατηγορία ετικέτας συσχετισμένης οντότητας (από τις κατηγορίες στο entityLabels). |
σχολιασμοί σχέσης | αντικείμενο[] | Προαιρετικός. Σειρά σχολιασμών σχέσεων. |
relationshipAnnotations[].sourceEntityAnnotationId | κορδόνι | Απαιτείται. Αναγνωριστικό σχολιασμού οντότητας πηγής για αυτήν τη σχέση. |
relationshipAnnotations[].targetEntityAnnotationId | κορδόνι | Απαιτείται. Αναγνωριστικό σχολιασμού οντότητας στόχου για αυτήν τη σχέση. |
σχολιασμοί σχέσης[].ετικέτα | κορδόνι | Απαιτείται. Όνομα ετικέτας συσχετισμένης σχέσης. |
ταξινόμησηΣχολιασμοί | σειρά[] | Προαιρετικός. Σειρά ταξινομήσεων για προ-σχολιασμό του εγγράφου. |
μετα | αντικείμενο | Προαιρετικός. Πρόσθετες παράμετροι διαμόρφωσης. |
μετα.οδηγίες | κορδόνι | Προαιρετικός. Οδηγίες για τον σχολιαστή ετικετών σε μορφή Markdown. |
meta.disableSubmitConfirmation | boolean | Προαιρετικός. Ορίστε στο true για να απενεργοποιήσετε τον τρόπο επιβεβαίωσης υποβολής. |
μετα.πολυταξινόμηση | boolean | Προαιρετικός. Ορίστε σε true για να ενεργοποιήσετε τη λειτουργία πολλαπλών ετικετών για classificationLabels. |
Ακολουθούν μερικά δείγματα εγγράφων για να κατανοήσετε καλύτερα αυτήν τη μορφή εισαγωγής
Τα έγγραφα που συμμορφώνονται με αυτό το σχήμα παρέχονται στο Ground Truth ως μεμονωμένα στοιχεία γραμμής σε μια δήλωση εισόδου.
Μορφή εγγράφου εξόδου
Η μορφή εξόδου έχει σχεδιαστεί για να ανατροφοδοτεί εύκολα μια νέα εργασία σχολιασμού. Τα προαιρετικά πεδία στο έγγραφο εξόδου ορίζονται εάν έχουν οριστεί και στο έγγραφο εισόδου. Η μόνη διαφορά μεταξύ των μορφών εισόδου και εξόδου είναι η meta
αντικείμενο.
Πεδίο | Χαρακτηριστικά | Περιγραφή |
μετα.απορρίφθηκε | boolean | Ορίζεται σε true εάν ο σχολιαστής απέρριψε αυτό το έγγραφο. |
meta.rejectedReason | κορδόνι | Δόθηκε ο λόγος του σχολιαστή για την απόρριψη του εγγράφου. |
μετα.ρούνες | σειρά[] | Πίνακας ρούνων που αντιστοιχούν σε όλους τους χαρακτήρες στο κείμενο εισαγωγής. Χρησιμοποιείται για τον υπολογισμό των μετατοπίσεων έναρξης και λήξης του σχολιασμού οντοτήτων. |
Ακολουθεί ένα δείγμα εγγράφου εξόδου που έχει σχολιαστεί:
Σημείωση Ρούνων:
Ένας "ρούνος" σε αυτό το πλαίσιο είναι ένας χαρακτήρας με δυνατότητα επισήμανσης σε κείμενο, συμπεριλαμβανομένων χαρακτήρων πολλών byte όπως emoji.
- Επειδή οι διαφορετικές γλώσσες προγραμματισμού αντιπροσωπεύουν διαφορετικούς χαρακτήρες πολλών byte, η χρήση "Runes" για τον ορισμό κάθε χαρακτήρα με δυνατότητα επισήμανσης ως μεμονωμένο ατομικό στοιχείο σημαίνει ότι έχουμε έναν ξεκάθαρο τρόπο να περιγράψουμε οποιαδήποτε δεδομένη επιλογή κειμένου.
- Για παράδειγμα, η Python αντιμετωπίζει τη σουηδική σημαία ως τέσσερις χαρακτήρες:
Αλλά η JavaScript αντιμετωπίζει το ίδιο emoji ως δύο χαρακτήρες
Για να εξαλείψουμε οποιαδήποτε ασάφεια, θα αντιμετωπίσουμε τη σουηδική σημαία (και όλους τους άλλους χαρακτήρες emoji και πολλών byte) ως ένα ενιαίο ατομικό στοιχείο.
- Μετατόπιση: Θέση ρούνου σε σχέση με το κείμενο εισόδου (ξεκινώντας με το ευρετήριο 0)
Εκτέλεση σχολιασμών NER με βασική αλήθεια
Ως μια πλήρως διαχειριζόμενη υπηρεσία επισήμανσης δεδομένων, η Ground Truth δημιουργεί σύνολα δεδομένων εκπαίδευσης για ML. Για αυτήν την περίπτωση χρήσης, χρησιμοποιούμε το Ground Truth για να στείλουμε μια συλλογή εγγράφων κειμένου σε μια ομάδα εργαζομένων για σχολιασμό. Τέλος, εξετάζουμε την ποιότητα.
Το Ground Truth μπορεί να διαμορφωθεί ώστε να δημιουργεί μια εργασία επισήμανσης δεδομένων χρησιμοποιώντας το νέο εργαλείο NER ως προσαρμοσμένο πρότυπο.
Συγκεκριμένα, θα:
- Δημιουργήστε ένα εργατικό δυναμικό ιδιωτικής ετικέτας εργαζομένων για την εκτέλεση της εργασίας σχολιασμού
- Δημιουργήστε ένα μανιφέστο εισαγωγής Ground Truth με τα έγγραφα που θέλουμε να σχολιάσουμε και, στη συνέχεια, ανεβάστε το Υπηρεσία απλής αποθήκευσης Amazon (Amazon S3)
- Δημιουργήστε συναρτήσεις Lambda εργασίας πριν και μετά την επισήμανση
- Δημιουργήστε μια εργασία επισήμανσης Ground Truth χρησιμοποιώντας το προσαρμοσμένο πρότυπο NER
- Σημειώστε έγγραφα
- Ελέγξτε τα αποτελέσματα
Πόροι εργαλείων NER
Μια πλήρης λίστα πόρων που αναφέρονται και δείγματα εγγράφων μπορείτε να βρείτε στο ακόλουθο διάγραμμα:
Επισήμανση Δημιουργία εργατικού δυναμικού
Η Ground Truth χρησιμοποιεί εργατικό δυναμικό σήμανσης SageMaker για τη διαχείριση των εργαζομένων και τη διανομή εργασιών. Δημιουργήστε ένα ιδιωτικό εργατικό δυναμικό, μια ομάδα εργαζομένων που ονομάζεται ner-worker-team, και αναθέστε τον εαυτό σας στην ομάδα χρησιμοποιώντας τις οδηγίες που βρίσκονται στο Δημιουργία ιδιωτικού εργατικού δυναμικού (Amazon SageMaker Console).
Αφού προσθέσετε τον εαυτό σας σε ένα ιδιωτικό εργατικό δυναμικό και επιβεβαιώσετε το email σας, σημειώστε τη διεύθυνση URL της πύλης εργαζομένων από την Κονσόλα διαχείρισης AWS:
- Πλοηγηθείτε στο
SageMaker
- Πλοηγηθείτε στο
Ground Truth → Labeling workforces
- Επιλέξτε το
Private
αυτί - Σημειώστε τη διεύθυνση URL
Labeling portal sign-in URL
Συνδεθείτε στην πύλη των εργαζομένων για να προβάλετε και να ξεκινήσετε την εργασία για εργασίες επισήμανσης.
Δήλωση εισαγωγής
Το μανιφέστο δεδομένων εισαγωγής Ground Truth είναι ένα αρχείο γραμμών JSON όπου κάθε γραμμή περιέχει μια μεμονωμένη εργασία εργασίας. Στην περίπτωσή μας, κάθε γραμμή θα περιέχει ένα μόνο έγγραφο εισόδου με κωδικοποίηση JSON που περιέχει το κείμενο που θέλουμε να σχολιάσουμε και το σχήμα σχολιασμού NER.
Κατεβάστε ένα δείγμα δήλωσης εισαγωγής reviews.manifest
από https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Note: κάθε σειρά στο μανιφέστο εισόδου χρειάζεται ένα κλειδί ανώτατου επιπέδου source
or source-ref
. Μπορείτε να μάθετε περισσότερα στο Χρησιμοποιήστε ένα αρχείο δήλωσης εισαγωγής στον Οδηγό προγραμματιστών του Amazon SageMaker.
Μεταφορτώστε το Input Manifest στο Amazon S3
Μεταφορτώστε αυτό το μανιφέστο εισόδου σε έναν κάδο S3 χρησιμοποιώντας την Κονσόλα διαχείρισης AWS ή από τη γραμμή εντολών, αντικαθιστώντας έτσι your-bucket
με ένα πραγματικό όνομα κάδου.
Λήψη προτύπου προσαρμοσμένου εργαζόμενου
Κάντε λήψη του προτύπου προσαρμοσμένου εργαζόμενου εργαλείου NER από https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html προβάλλοντας την πηγή και αποθηκεύοντας τα περιεχόμενα τοπικά ή από τη γραμμή εντολών:
Δημιουργήστε συναρτήσεις Lambda εργασίας πριν και μετά την επισήμανση
Λήψη δείγματος εργασίας προεπισήμανσης συνάρτηση Lambda: smgt-ner-pre-labeling-task-lambda.py
από https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Λήψη δείγματος εργασίας προεπισήμανσης συνάρτηση Lambda: smgt-ner-post-labeling-task-lambda.py
από https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Δημιουργήστε τη συνάρτηση Lambda της εργασίας προεπισήμανσης από την Κονσόλα διαχείρισης AWS:
- Πλοηγηθείτε στο
Lambda
- Αγορά
Create function
- Καθορίστε
Function name
assmgt-ner-pre-labeling-task-lambda
- Αγορά
Runtime
→Python 3.6
- Αγορά
Create function
- In
Function code
→lambda_hanadler.py
, επικολλήστε τα περιεχόμενα τουsmgt-ner-pre-labeling-task-lambda.py
- Αγορά
Deploy
- Πλοηγηθείτε στο
- Δημιουργήστε τη συνάρτηση Lambda της εργασίας μετά την επισήμανση από την Κονσόλα διαχείρισης AWS:
- Πλοηγηθείτε στο
Lambda
- Αγορά
Create function
- Καθορίστε
Function name
assmgt-ner-post-labeling-task-lambda
- Αγορά
Runtime
→Python 3.6
- Ανάπτυξη
Change default execution role
- Αγορά
Create a new role from AWS policy templates
- Εισάγετε το
Role name
:smgt-ner-post-labeling-task-lambda-role
- Αγορά
Create function
- Επιλέξτε το
Permissions
αυτί - Επιλέξτε το
Role name
:smgt-ner-post-labeling-task-lambda-role
για να ανοίξετε την κονσόλα IAM - Προσθέστε δύο πολιτικές στον ρόλο
- Αγορά
Attach policies
- Συνδέστε το
AmazonS3FullAccess
πολιτική - Αγορά
Add inline policy
- Επιλέξτε το
JSON
αυτί - Επικολλήστε την ακόλουθη ενσωματωμένη πολιτική:
- Αγορά
- Πλοηγηθείτε πίσω στο
smgt-ner-post-labeling-task-lambda
Σελίδα διαμόρφωσης συνάρτησης λάμδα - Επιλέξτε το
Configuration
αυτί - In
Function code
→ λambda_hanadler.py
, επικολλήστε τα περιεχόμενα τουsmgt-ner-post-labeling-task-lambda.py
- Αγορά
Deploy
- Πλοηγηθείτε στο
Δημιουργήστε μια εργασία επισήμανσης βασικής αλήθειας
Από την Κονσόλα Διαχείρισης AWS:
- Πλοηγηθείτε με το
Amazon SageMaker
υπηρεσία - Πλοηγηθείτε στο
Ground Truth
→Labeling Jobs
. - Αγορά
Create labeling job
- Προσδιορίστε α
Job Name
- Αγορά
Manual Data Setup
- Καθορίστε τη θέση του συνόλου δεδομένων εισόδου όπου ανεβάσατε το μανιφέστο εισόδου νωρίτερα (π.χ
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Καθορίστε τη θέση δεδομένων Output για να οδηγεί σε διαφορετικό φάκελο στον ίδιο κάδο (π.χ.
s3://your-bucket/ner-output/
) - Καθορίστε ένα
IAM Role
επιλέγονταςCreate new role
- Επιτρέψτε σε αυτόν τον ρόλο να έχει πρόσβαση σε οποιονδήποτε κάδο S3 επιλέγοντας
S3 buckets you specify
→Any S3 bucket
κατά τη δημιουργία της πολιτικής - Σε ένα νέο παράθυρο της Κονσόλας Διαχείρισης AWS, ανοίξτε το
IAM
κονσόλα και επιλέξτεRoles
- Αναζητήστε το όνομα του ρόλου που μόλις δημιουργήσατε (για παράδειγμα,
AmazonSageMaker-ExecutionRole-20210301T154158
) - Επιλέξτε το όνομα του ρόλου για να ανοίξετε τον ρόλο στην κονσόλα
- Επισυνάψτε τις ακόλουθες τρεις πολιτικές:
- Επιλέξτε Επισύναψη πολιτικών
- Συνδέστε το
AWSLambda_FullAccess
στον ρόλο - Αγορά
Trust Relationships
→Edit Trust Relationships
- Επεξεργαστείτε τη σχέση εμπιστοσύνης JSON,
- Αντικαταστήστε
YOUR_ACCOUNT_NUMBER
με τον αριθμητικό αριθμό λογαριασμού σας AWS, για να διαβάσετε: - Σώστε τη σχέση εμπιστοσύνης
- Επιτρέψτε σε αυτόν τον ρόλο να έχει πρόσβαση σε οποιονδήποτε κάδο S3 επιλέγοντας
- Επιστρέψτε στη νέα εργασία Ground Truth στο προηγούμενο παράθυρο της Κονσόλας Διαχείρισης AWS: κάτω
Task Category
, ΕπιλέξτεCustom
- Αγορά
Next
- Αγορά
Worker types
:Private
- Επιλέξτε το
Private team
:ner-worker-team
που δημιουργήθηκε στην προηγούμενη ενότητα - Στο
Custom labeling task setup
περιοχή κειμένου, διαγράψτε το προεπιλεγμένο περιεχόμενο και επικολλήστε το περιεχόμενο τουworker-template.liquid.html
αρχείο που ελήφθη νωρίτερα - Καθορίστε το
Pre-labeling task Lambda function
με τη συνάρτηση που δημιουργήθηκε προηγουμένως:smgt-ner-pre-labeling
- Καθορίστε το
Post-labeling task Lambda function
με τη συνάρτηση που δημιουργήθηκε νωρίτερα:smgt-ner-post-labeling
- Αγορά
Create
Σημειώστε έγγραφα
Μόλις δημιουργηθεί η εργασία Ground Truth, μπορούμε να αρχίσουμε να σχολιάζουμε έγγραφα. Ανοίξτε την πύλη εργαζομένων για το εργατικό δυναμικό μας που δημιουργήθηκε νωρίτερα (Στην Κονσόλα διαχείρισης AWS, μεταβείτε στο SageMaker
, Ground Truth → Labeling workforces
, Private
και ανοίξτε το Labeling portal sign-in URL
)
Συνδεθείτε και επιλέξτε την πρώτη εργασία επισήμανσης στον πίνακα και, στη συνέχεια, επιλέξτε "Έναρξη εργασίας" για να ανοίξετε τον σχολιαστή. Εκτελέστε τους σχολιασμούς σας και επιλέξτε υποβολή και στα τρία δείγματα εγγράφων.
Ελέγξτε τα αποτελέσματα
Καθώς οι σχολιαστές του Ground Truth ολοκληρώνουν τις εργασίες, τα αποτελέσματα θα είναι διαθέσιμα στον κάδο εξόδου S3:
Μόλις ολοκληρωθούν όλες οι εργασίες για μια εργασία επισήμανσης, το ενοποιημένο αποτέλεσμα είναι διαθέσιμο στο output.manifest
αρχείο που βρίσκεται εδώ:
Αυτό το μανιφέστο εξόδου είναι ένα αρχείο γραμμών JSON με ένα σχολιασμένο έγγραφο κειμένου ανά γραμμή στη "Μορφή εγγράφου εξόδου" που καθορίστηκε προηγουμένως. Αυτό το αρχείο είναι συμβατό με το "Input Document Format" και μπορεί να τροφοδοτηθεί απευθείας σε μια επόμενη εργασία Ground Truth για έναν ακόμη γύρο σχολιασμού. Εναλλακτικά, μπορεί να αναλυθεί και να σταλεί σε μια εργασία εκπαίδευσης ML. Μερικά σενάρια όπου θα μπορούσαμε να χρησιμοποιήσουμε έναν δεύτερο γύρο σχολιασμών είναι:
- Χωρίζοντας τη διαδικασία σχολιασμού σε δύο βήματα όπου ο πρώτος σχολιαστής προσδιορίζει τους σχολιασμούς οντοτήτων και ο δεύτερος σχολιαστής σχεδιάζει σχέσεις
- Λαμβάνοντας ένα δείγμα μας
output.manifest
και αποστολή του σε δεύτερο, πιο έμπειρο σχολιαστή για έλεγχο ως έλεγχος ποιότητας
Προσαρμοσμένα πρότυπα σχολιασμού για την αλήθεια
Το εργαλείο σχολιασμού NER που περιγράφεται σε αυτό το έγγραφο υλοποιείται ως προσαρμοσμένο πρότυπο σχολιασμού Ground Truth. Οι πελάτες AWS μπορούν να δημιουργήσουν τις δικές τους προσαρμοσμένες διεπαφές σχολιασμού χρησιμοποιώντας τις οδηγίες που βρίσκονται εδώ:
Συμπέρασμα
Δουλεύοντας μαζί, η Booking.com και η Amazon MLSL μπόρεσαν να αναπτύξουν ένα ισχυρό εργαλείο σχολιασμού κειμένου που είναι ικανό να δημιουργεί σύνθετους σχολιασμούς αναγνώρισης ονομαστικών οντοτήτων και σχέσεων.
Ενθαρρύνουμε τους πελάτες AWS με περίπτωση χρήσης σχολιασμού κειμένου NER να δοκιμάσουν το εργαλείο που περιγράφεται σε αυτήν την ανάρτηση. Εάν θέλετε βοήθεια για την επιτάχυνση της χρήσης του ML στα προϊόντα και τις υπηρεσίες σας, επικοινωνήστε με το Εργαστήριο Amazon Machine Learning Solutions.
Σχετικά με τους Συγγραφείς
Νταν Νόμπλ είναι Μηχανικός Ανάπτυξης Λογισμικού στο Amazon όπου βοηθά στη δημιουργία απολαυστικών εμπειριών χρήστη. Στον ελεύθερο χρόνο του, του αρέσει να διαβάζει, να ασκείται και να έχει περιπέτειες με την οικογένειά του.
Πρι Νόνης είναι αρχιτέκτονας Deep Learning στο Amazon ML Solutions Lab, όπου εργάζεται με πελάτες σε διάφορους κλάδους και τους βοηθά να επιταχύνουν το ταξίδι μετανάστευσης στο cloud και να λύσουν τα προβλήματά τους ML χρησιμοποιώντας λύσεις και τεχνολογίες αιχμής.
Niharika Jayanthi είναι Front End Engineer στην AWS, όπου αναπτύσσει προσαρμοσμένες λύσεις σχολιασμού για πελάτες του Amazon SageMaker. Εκτός δουλειάς, της αρέσει να πηγαίνει σε μουσεία και να γυμνάζεται.
Αμίτ Μπέκα είναι Διευθυντής Μηχανικής Μάθησης στο Booking.com, με πάνω από 15 χρόνια εμπειρίας στην ανάπτυξη λογισμικού και τη μηχανική εκμάθηση. Είναι γοητευμένος με τους ανθρώπους και τις γλώσσες, και πώς οι υπολογιστές εξακολουθούν να προβληματίζονται και από τα δύο.
- '
- 100
- 11
- 7
- Σχετικά
- πρόσβαση
- Λογαριασμός
- Λογιστήριο
- απέναντι
- Ενέργειες
- Επιπλέον
- Πρόσθετος
- Όλα
- Amazon
- Εκμάθηση μηχανών του Αμαζονίου
- Amazon Sage Maker
- Ασάφεια
- ανάλυση
- ΠΕΡΙΟΧΗ
- διαθέσιμος
- Διατίθεται σε όλους
- AWS
- Αρχή
- είναι
- χτίζω
- Κτίριο
- ο οποίος
- περιπτώσεις
- ταξινόμηση
- Backup
- κωδικός
- συλλογή
- συγκρότημα
- υπολογιστές
- διαμόρφωση
- εξέταση
- πρόξενος
- περιεχόμενο
- περιεχόμενα
- θα μπορούσε να
- δημιουργία
- κρίσιμης
- εμπειρία του πελάτη
- Πελάτες
- ημερομηνία
- βαθιά μάθηση
- ανάπτυξη
- Εργολάβος
- Ανάπτυξη
- διαφορετικές
- έγγραφα
- Όχι
- εύκολα
- αποτέλεσμα
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- Emoji
- ενθαρρύνει
- μηχανικός
- κ.λπ.
- παράδειγμα
- εκτέλεση
- αναμένει
- εμπειρία
- Δραστηριοτητες
- οικογένεια
- Fed
- ανατροφοδότηση
- Πεδία
- Τελικά
- Όνομα
- καταλληλότητα
- τροφή
- μορφή
- Βρέθηκαν
- πλήρη
- λειτουργία
- gif
- μετάβαση
- Επισκέπτης
- καθοδηγήσει
- βοήθεια
- βοηθά
- εδώ
- Επισημάνετε
- ξενοδοχείο
- Πως
- Πώς να
- HTTPS
- IAM
- εφαρμοστεί
- σημαντικό
- Συμπεριλαμβανομένου
- ευρετήριο
- ατομικές
- IT
- το JavaScript
- Δουλειά
- ταξίδι
- Κλειδί
- τιτλοφόρηση
- Ετικέτες
- Γλώσσα
- Γλώσσες
- large
- που οδηγεί
- ΜΑΘΑΊΝΩ
- μάθηση
- Νομικά
- Επίπεδο
- επίπεδα
- γραμμή
- LINK
- Υγρό
- Λίστα
- Ακίνητα
- τοπικά
- τοποθεσία
- κοιτάζοντας
- μάθηση μηχανής
- διαχείριση
- σημάδι
- αγορά
- Ταίριασμα
- Meta
- νου
- ML
- μοντέλο
- περισσότερο
- Μουσεία
- ονόματα
- Φυσική γλώσσα
- Επεξεργασία φυσικής γλώσσας
- που απαιτούνται
- nlp
- αριθμοί
- προσφορές
- όφσετ
- διαδικτυακά (online)
- ανοίξτε
- ανοίγει
- Ευκαιρία
- ΑΛΛΑ
- People
- φράσεις
- πλατφόρμες
- Πλατφόρμες
- Πολιτικές
- πολιτική
- πισίνα
- Πύλη
- μετά την πανδημία
- ισχυρός
- τιμή
- Κύριος
- ιδιωτικός
- διαδικασια μας
- Προϊόντα
- Προγραμματισμός
- γλώσσες προγραμματισμού
- περιουσία
- παρέχουν
- παρέχει
- Python
- ποιότητα
- ερώτηση
- Ανάγνωση
- Σχέσεις
- απαιτήσεις
- πόρος
- Υποστηρικτικό υλικό
- εστιατόριο
- Αποτελέσματα
- ανασκόπηση
- Κριτικές
- Δωμάτια
- σοφός
- οικονομία
- Κλίμακα
- αίσθηση
- συναίσθημα
- Υπηρεσίες
- σειρά
- Κοντά
- Απλούς
- So
- λογισμικό
- ανάπτυξη λογισμικού
- Λύσεις
- SOLVE
- Χώρος
- ταχύτητα
- Εκκίνηση
- Δήλωση
- παραμονή
- χώρος στο δίσκο
- υποστήριξη
- στόχος
- Τεχνολογίες
- Η Πηγη
- ώρα
- μαζι
- Τεκμηρίωση
- κουπόνια
- εργαλείο
- κορυφή
- κορυφαίο επίπεδο
- τροχιά
- παραδοσιακός
- Εκπαίδευση
- ταξίδι
- θεραπεία
- μεταχειρίζεται
- Εμπιστευθείτε
- us
- Χρήστες
- αξία
- εκδοχή
- Δες
- Τι
- εντός
- Εργασία
- εργάστηκαν
- εργαζομένων
- Εργατικό δυναμικό
- εργαζόμενος
- εκτέλεση
- λειτουργεί
- κόσμος
- του κόσμου
- θα
- χρόνια