Αυτή η σειρά τριών μερών δείχνει πώς να χρησιμοποιείτε νευρωνικά δίκτυα γραφημάτων (GNN) και Amazon Ποσειδώνας για τη δημιουργία προτάσεων ταινιών χρησιμοποιώντας το IMDb και Box Office Mojo Movies/TV/OTT Πακέτο δεδομένων με άδεια χρήσης, το οποίο παρέχει ένα ευρύ φάσμα μεταδεδομένων ψυχαγωγίας, συμπεριλαμβανομένων πάνω από 1 δισεκατομμύριο αξιολογήσεις χρηστών. πιστώσεις για περισσότερα από 11 εκατομμύρια μέλη του καστ και του πληρώματος· 9 εκατομμύρια τίτλοι ταινιών, τηλεόρασης και ψυχαγωγίας. και παγκόσμιες αναφορές στο box office από περισσότερες από 60 χώρες. Πολλοί πελάτες πολυμέσων και ψυχαγωγίας AWS αδειοδοτούν δεδομένα IMDb μέσω Ανταλλαγή δεδομένων AWS για τη βελτίωση της ανακάλυψης περιεχομένου και την αύξηση της αφοσίωσης και της διατήρησης των πελατών.
In Μέρος 1, συζητήσαμε τις εφαρμογές των GNN και τον τρόπο μετατροπής και προετοιμασίας των δεδομένων μας στο IMDb για αναζήτηση. Σε αυτήν την ανάρτηση, συζητάμε τη διαδικασία χρήσης του Neptune για τη δημιουργία ενσωματώσεων που χρησιμοποιούνται για τη διεξαγωγή της αναζήτησης εκτός καταλόγου στο Μέρος 3 . Περνάμε επίσης Amazon Neptune ML, τη δυνατότητα μηχανικής μάθησης (ML) του Neptune και τον κώδικα που χρησιμοποιούμε στη διαδικασία ανάπτυξής μας. Στο Μέρος 3, περιγράφουμε πώς να εφαρμόσουμε τις ενσωματώσεις γραφημάτων γνώσης σε μια περίπτωση χρήσης αναζήτησης εκτός καταλόγου.
Επισκόπηση λύσεων
Τα μεγάλα συνδεδεμένα σύνολα δεδομένων συχνά περιέχουν πολύτιμες πληροφορίες που μπορεί να είναι δύσκολο να εξαχθούν χρησιμοποιώντας ερωτήματα που βασίζονται μόνο στην ανθρώπινη διαίσθηση. Οι τεχνικές ML μπορούν να βοηθήσουν στην εύρεση κρυφών συσχετίσεων σε γραφήματα με δισεκατομμύρια σχέσεις. Αυτές οι συσχετίσεις μπορεί να είναι χρήσιμες για τη σύσταση προϊόντων, την πρόβλεψη της πιστοληπτικής ικανότητας, τον εντοπισμό απάτης και πολλές άλλες περιπτώσεις χρήσης.
Το Neptune ML καθιστά δυνατή τη δημιουργία και την εκπαίδευση χρήσιμων μοντέλων ML σε μεγάλα γραφήματα σε ώρες αντί για εβδομάδες. Για να το πετύχει αυτό, το Neptune ML χρησιμοποιεί τεχνολογία GNN που τροφοδοτείται από Amazon Sage Maker και την Βιβλιοθήκη Deep Graph (DGL) (το οποίο είναι ανοικτού κώδικα). Τα GNN είναι ένα αναδυόμενο πεδίο στην τεχνητή νοημοσύνη (για παράδειγμα, βλ Μια ολοκληρωμένη έρευνα για τα νευρωνικά δίκτυα γραφικών). Για ένα πρακτικό σεμινάριο σχετικά με τη χρήση GNN με το DGL, βλ Εκμάθηση νευρωνικών δικτύων γραφημάτων με τη Βιβλιοθήκη Deep Graph.
Σε αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιούμε τον Neptune στον αγωγό μας για να δημιουργήσουμε ενσωματώσεις.
Το παρακάτω διάγραμμα απεικονίζει τη συνολική ροή δεδομένων IMDb από τη λήψη έως τη δημιουργία ενσωμάτωσης.
Χρησιμοποιούμε τις ακόλουθες υπηρεσίες AWS για την υλοποίηση της λύσης:
Σε αυτήν την ανάρτηση, σας καθοδηγούμε στα ακόλουθα βήματα υψηλού επιπέδου:
- Ρύθμιση μεταβλητών περιβάλλοντος
- Δημιουργήστε μια εργασία εξαγωγής.
- Δημιουργήστε μια εργασία επεξεργασίας δεδομένων.
- Υποβάλετε μια εργασία κατάρτισης.
- Λήψη ενσωματώσεων.
Κώδικας για εντολές Neptune ML
Χρησιμοποιούμε τις ακόλουθες εντολές ως μέρος της εφαρμογής αυτής της λύσης:
Χρησιμοποιούμε neptune_ml export
για να ελέγξετε την κατάσταση ή να ξεκινήσετε μια διαδικασία εξαγωγής Neptune ML και neptune_ml training
για να ξεκινήσετε και να ελέγξετε την κατάσταση μιας εργασίας εκπαίδευσης μοντέλου Neptune ML.
Για περισσότερες πληροφορίες σχετικά με αυτές και άλλες εντολές, ανατρέξτε στο Χρησιμοποιώντας τα μαγικά του πάγκου εργασίας Neptune στα σημειωματάρια σας.
Προϋποθέσεις
Για να ακολουθήσετε αυτήν την ανάρτηση, θα πρέπει να έχετε τα εξής:
- An Λογαριασμός AWS
- Εξοικείωση με το SageMaker, το Amazon S3 και το AWS CloudFormation
- Δεδομένα γραφήματος που φορτώθηκαν στο σύμπλεγμα του Ποσειδώνα (βλ Μέρος 1 Για περισσότερες πληροφορίες)
Ρύθμιση μεταβλητών περιβάλλοντος
Πριν ξεκινήσουμε, θα χρειαστεί να ρυθμίσετε το περιβάλλον σας ορίζοντας τις ακόλουθες μεταβλητές: s3_bucket_uri
και processed_folder
. s3_bucket_uri
είναι το όνομα του κάδου που χρησιμοποιείται στο Μέρος 1 και processed_folder
είναι η τοποθεσία Amazon S3 για την έξοδο από την εργασία εξαγωγής.
Δημιουργήστε μια εργασία εξαγωγής
Στο Μέρος 1, δημιουργήσαμε ένα σημειωματάριο και υπηρεσία εξαγωγής SageMaker για την εξαγωγή των δεδομένων μας από το σύμπλεγμα DB του Neptune στο Amazon S3 στην απαιτούμενη μορφή.
Τώρα που φορτώθηκαν τα δεδομένα μας και δημιουργήθηκε η υπηρεσία εξαγωγής, πρέπει να δημιουργήσουμε μια εργασία εξαγωγής ξεκινήστε την. Για να το κάνουμε αυτό, χρησιμοποιούμε NeptuneExportApiUri
και να δημιουργήσετε παραμέτρους για την εργασία εξαγωγής. Στον παρακάτω κώδικα, χρησιμοποιούμε τις μεταβλητές expo
και export_params
. Σειρά expo
να σας NeptuneExportApiUri
αξία, την οποία μπορείτε να βρείτε στο Έξοδοι καρτέλα της στοίβας CloudFormation. Για export_params
, χρησιμοποιούμε το τελικό σημείο του συμπλέγματος Ποσειδώνα και παρέχουμε την τιμή για outputS3path
, που είναι η τοποθεσία Amazon S3 για την έξοδο από την εργασία εξαγωγής.
Για να υποβάλετε την εργασία εξαγωγής χρησιμοποιήστε την ακόλουθη εντολή:
Για να ελέγξετε την κατάσταση της εργασίας εξαγωγής χρησιμοποιήστε την ακόλουθη εντολή:
Αφού ολοκληρωθεί η εργασία σας, ρυθμίστε το processed_folder
μεταβλητή για την παροχή της θέσης Amazon S3 των επεξεργασμένων αποτελεσμάτων:
Δημιουργήστε μια εργασία επεξεργασίας δεδομένων
Τώρα που ολοκληρώθηκε η εξαγωγή, δημιουργούμε μια εργασία επεξεργασίας δεδομένων για την προετοιμασία των δεδομένων για τη διαδικασία εκπαίδευσης Neptune ML. Αυτό μπορεί να γίνει με μερικούς διαφορετικούς τρόπους. Για αυτό το βήμα, μπορείτε να αλλάξετε το job_name
και modelType
μεταβλητές, αλλά όλες οι άλλες παράμετροι πρέπει να παραμείνουν ίδιες. Το κύριο μέρος αυτού του κώδικα είναι το modelType
παράμετρος, η οποία μπορεί να είναι είτε ετερογενή μοντέλα γραφημάτων (heterogeneous
) ή γραφήματα γνώσεων (kge
).
Η δουλειά των εξαγωγών περιλαμβάνει επίσης training-data-configuration.json
. Χρησιμοποιήστε αυτό το αρχείο για να προσθέσετε ή να αφαιρέσετε τυχόν κόμβους ή άκρες που δεν θέλετε να παρέχετε για εκπαίδευση (για παράδειγμα, εάν θέλετε να προβλέψετε τη σύνδεση μεταξύ δύο κόμβων, μπορείτε να αφαιρέσετε αυτόν τον σύνδεσμο σε αυτό το αρχείο διαμόρφωσης). Για αυτήν την ανάρτηση ιστολογίου χρησιμοποιούμε το αρχικό αρχείο ρυθμίσεων. Για πρόσθετες πληροφορίες, βλ Επεξεργασία αρχείου διαμόρφωσης εκπαίδευσης.
Δημιουργήστε την εργασία επεξεργασίας δεδομένων με τον ακόλουθο κώδικα:
Για να ελέγξετε την κατάσταση της εργασίας εξαγωγής χρησιμοποιήστε την ακόλουθη εντολή:
Υποβάλετε μια εργασία κατάρτισης
Αφού ολοκληρωθεί η εργασία επεξεργασίας, μπορούμε να ξεκινήσουμε την εργασία εκπαίδευσης, όπου δημιουργούμε τις ενσωματώσεις μας. Συνιστούμε έναν τύπο εμφάνισης ml.m5.24xlarge, αλλά μπορείτε να το αλλάξετε για να ταιριάζει στις υπολογιστικές σας ανάγκες. Δείτε τον παρακάτω κώδικα:
Εκτυπώνουμε τη μεταβλητή training_results για να λάβουμε το αναγνωριστικό για την εργασία εκπαίδευσης. Χρησιμοποιήστε την ακόλουθη εντολή για να ελέγξετε την κατάσταση της εργασίας σας:
%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results
Λήψη ενσωματώσεων
Αφού ολοκληρωθεί η εργασία εκπαίδευσης, το τελευταίο βήμα είναι να κατεβάσετε τις ακατέργαστες ενσωματώσεις σας. Τα παρακάτω βήματα σάς δείχνουν πώς να κάνετε λήψη ενσωματώσεων που δημιουργήθηκαν χρησιμοποιώντας το KGE (μπορείτε να χρησιμοποιήσετε την ίδια διαδικασία για το RGCN).
Στον παρακάτω κώδικα, χρησιμοποιούμε neptune_ml.get_mapping()
και get_embeddings()
για λήψη του αρχείου χαρτογράφησης (mapping.info
) και το αρχείο ακατέργαστων ενσωματώσεων (entity.npy
). Στη συνέχεια, πρέπει να αντιστοιχίσουμε τις κατάλληλες ενσωματώσεις στα αντίστοιχα αναγνωριστικά τους.
Για να πραγματοποιήσετε λήψη RGCN, ακολουθήστε την ίδια διαδικασία με ένα νέο όνομα εργασίας εκπαίδευσης, επεξεργάζοντας τα δεδομένα με την παράμετρο modelType που έχει οριστεί σε heterogeneous
, στη συνέχεια εκπαιδεύστε το μοντέλο σας με την παράμετρο modelName ρυθμισμένη σε rgcn
δείτε εδώ Για περισσότερες πληροφορίες. Μόλις τελειώσετε, καλέστε το get_mapping
και get_embeddings
λειτουργίες για να κατεβάσετε το νέο σας mapping.info και οντότητα.npy αρχεία. Αφού έχετε τα αρχεία οντοτήτων και αντιστοίχισης, η διαδικασία δημιουργίας του αρχείου CSV είναι πανομοιότυπη.
Τέλος, ανεβάστε τις ενσωματώσεις σας στην επιθυμητή τοποθεσία Amazon S3:
Βεβαιωθείτε ότι θυμάστε αυτήν τη θέση S3, θα χρειαστεί να τη χρησιμοποιήσετε στο Μέρος 3.
εκκαθάριση
Όταν τελειώσετε με τη χρήση της λύσης, φροντίστε να καθαρίσετε τυχόν πόρους για να αποφύγετε τις τρέχουσες χρεώσεις.
Συμπέρασμα
Σε αυτήν την ανάρτηση, συζητήσαμε πώς να χρησιμοποιήσετε το Neptune ML για να εκπαιδεύσετε ενσωματώσεις GNN από δεδομένα IMDb.
Ορισμένες σχετικές εφαρμογές των ενσωματώσεων γραφημάτων γνώσης είναι έννοιες όπως αναζήτηση εκτός καταλόγου, προτάσεις περιεχομένου, στοχευμένη διαφήμιση, πρόβλεψη συνδέσμων που λείπουν, γενική αναζήτηση και ανάλυση κοόρτης. Η αναζήτηση εκτός καταλόγου είναι η διαδικασία αναζήτησης περιεχομένου που δεν σας ανήκει και εύρεσης ή πρότασης περιεχομένου που βρίσκεται στον κατάλογό σας που είναι όσο το δυνατόν πιο κοντά σε αυτό που αναζήτησε ο χρήστης. Βουτάμε πιο βαθιά στην αναζήτηση εκτός καταλόγου στο Μέρος 3.
Σχετικά με τους Συγγραφείς
Ματθαίος Ρόδος είναι Επιστήμονας Δεδομένων και εργάζομαι στο Amazon ML Solutions Lab. Εξειδικεύεται στην κατασκευή αγωγών Μηχανικής Μάθησης που περιλαμβάνουν έννοιες όπως η Επεξεργασία Φυσικής Γλώσσας και το Computer Vision.
Ντίγια Μπαρχάρβι είναι Επιστήμονας Δεδομένων και Κάθετη Επικεφαλής Μέσων και Ψυχαγωγίας στο Amazon ML Solutions Lab, όπου λύνει επιχειρηματικά προβλήματα υψηλής αξίας για πελάτες AWS χρησιμοποιώντας τη Μηχανική Μάθηση. Εργάζεται στην κατανόηση εικόνας/βίντεο, σε συστήματα συστάσεων γραφημάτων γνώσης, σε περιπτώσεις χρήσης προγνωστικών διαφημίσεων.
Γκαουράβ Ρελέ είναι Επιστήμονας δεδομένων στο Amazon ML Solution Lab, όπου συνεργάζεται με πελάτες AWS σε διαφορετικούς κλάδους για να επιταχύνει τη χρήση της μηχανικής μάθησης και των υπηρεσιών AWS Cloud για την επίλυση των επιχειρηματικών τους προκλήσεων.
Karan Sindwani είναι Επιστήμονας Δεδομένων στο Amazon ML Solutions Lab, όπου κατασκευάζει και αναπτύσσει μοντέλα βαθιάς μάθησης. Ειδικεύεται στον τομέα της όρασης υπολογιστών. Στον ελεύθερο χρόνο του, του αρέσει η πεζοπορία.
Soji Adeshina είναι Εφαρμοσμένος Επιστήμονας στο AWS όπου αναπτύσσει μοντέλα βασισμένα σε νευρωνικά δίκτυα γραφημάτων για μηχανική εκμάθηση σε εργασίες γραφημάτων με εφαρμογές απάτης και κατάχρησης, γραφήματα γνώσης, συστήματα συστάσεων και βιοεπιστήμες. Στον ελεύθερο χρόνο του, του αρέσει να διαβάζει και να μαγειρεύει.
Βίντια Σαγκάρ Ραβιπάτι είναι Διευθυντής στο Amazon ML Solutions Lab, όπου αξιοποιεί την τεράστια εμπειρία του σε μεγάλης κλίμακας κατανεμημένα συστήματα και το πάθος του για τη μηχανική μάθηση για να βοηθήσει τους πελάτες AWS σε διαφορετικούς κλάδους της βιομηχανίας να επιταχύνουν την υιοθέτηση της τεχνητής νοημοσύνης και του cloud.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/
- 1
- 10
- 100
- 11
- 116
- 7
- 9
- a
- Σχετικά
- κατάχρηση
- επιταχύνουν
- απέναντι
- Πρόσθετος
- Επιπλέον πληροφορίες
- Υιοθεσία
- Διαφήμιση
- Μετά το
- AI
- Όλα
- alone
- Amazon
- Εργαστήριο Amazon ML Solutions
- ανάλυση
- και
- εφαρμογές
- εφαρμοσμένος
- Εφαρμογή
- κατάλληλος
- ΠΕΡΙΟΧΗ
- τεχνητός
- τεχνητή νοημοσύνη
- AWS
- βασίζονται
- μεταξύ
- Δισεκατομμύριο
- δισεκατομμύρια
- Blog
- Κουτί
- εκδοτήριο
- χτίζω
- Κτίριο
- Χτίζει
- επιχείρηση
- κλήση
- περίπτωση
- περιπτώσεις
- κατάλογος
- προκλήσεις
- αλλαγή
- φορτία
- έλεγχος
- Κλεισιμο
- Backup
- υιοθέτηση νέφους
- υπηρεσίες cloud
- συστάδα
- κωδικός
- Σώμα στρατού
- πλήρης
- περιεκτικός
- υπολογιστή
- Computer Vision
- χρήση υπολογιστή
- έννοιες
- Διεξαγωγή
- διαμόρφωση
- συνδεδεμένος
- περιεχόμενο
- Αντίστοιχος
- χώρες
- δημιουργία
- δημιουργήθηκε
- μονάδες
- Συντελεστές
- πελάτης
- Επαφή με τον πελάτη
- Πελάτες
- ημερομηνία
- επεξεργασία δεδομένων
- επιστήμονας δεδομένων
- σύνολα δεδομένων
- βαθύς
- βαθιά μάθηση
- βαθύτερη
- αναπτύσσεται
- καθέκαστα
- Ανάπτυξη
- αναπτύσσεται
- dgl
- διαφορετικές
- ανακάλυψη
- συζητήσουν
- συζήτηση
- διανέμονται
- κατανεμημένα συστήματα
- Μην
- κατεβάσετε
- είτε
- σμυριδόπετρα
- Τελικό σημείο
- δέσμευση
- Ψυχαγωγία
- οντότητα
- Περιβάλλον
- Αιθέρας (ΕΤΗ)
- παράδειγμα
- εμπειρία
- εξαγωγή
- εκχύλισμα
- Χαρακτηριστικό
- λίγοι
- πεδίο
- Αρχεία
- Αρχεία
- Εύρεση
- εύρεση
- ροή
- ακολουθήστε
- Εξής
- μορφή
- απάτη
- από
- πλήρη
- λειτουργίες
- General
- παράγουν
- γενεά
- παίρνω
- Παγκόσμιο
- Go
- γραφική παράσταση
- γραφικές παραστάσεις
- hands-on
- Σκληρά
- βοήθεια
- χρήσιμο
- κρυμμένο
- υψηλού επιπέδου
- ΩΡΕΣ
- Πως
- Πώς να
- HTML
- HTTPS
- ανθρώπινος
- identiques
- προσδιορισμό
- εφαρμογή
- εκτελεστικών
- βελτίωση
- in
- περιλαμβάνει
- Συμπεριλαμβανομένου
- Αυξάνουν
- ευρετήριο
- βιομηχανία
- πληροφορίες
- πληροφορίες
- παράδειγμα
- αντί
- Νοημοσύνη
- εμπλέκω
- IT
- Δουλειά
- json
- Κλειδί
- γνώση
- εργαστήριο
- Γλώσσα
- large
- μεγάλης κλίμακας
- Επίθετο
- οδηγήσει
- μάθηση
- μόχλευσης
- Βιβλιοθήκη
- Άδεια
- ζωή
- Επιστήμες της Ζωής
- LINK
- ΣΥΝΔΕΣΜΟΙ
- τοποθεσία
- μηχανή
- μάθηση μηχανής
- Κυρίως
- ΚΑΝΕΙ
- διευθυντής
- πολοί
- χάρτη
- χαρτης
- Εικόνες / Βίντεο
- medium
- Μέλη
- Μεταδεδομένα
- εκατομμύριο
- Λείπει
- ML
- μοντέλο
- μοντέλα
- περισσότερο
- ταινία
- όνομα
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- Ανάγκη
- ανάγκες
- Ποσειδώνας
- με βάση το δίκτυο
- δίκτυα
- νευρωνικά δίκτυα
- Νέα
- κόμβων
- σημειωματάριο
- Office
- συνεχή
- πρωτότυπο
- ΑΛΛΑ
- φόρμες
- δική
- πακέτο
- παράμετρος
- παράμετροι
- μέρος
- πάθος
- αγωγού
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- δυνατός
- Θέση
- δύναμη
- τροφοδοτείται
- προβλέψει
- προβλέποντας
- Προετοιμάστε
- προβλήματα
- διαδικασια μας
- μεταποίηση
- Προϊόντα
- Προφίλ ⬇️
- παρέχουν
- παρέχει
- σειρά
- χαρακτηρισμοί
- Ακατέργαστος
- Ανάγνωση
- συνιστώ
- Σύσταση
- συστάσεις
- συνιστώντας
- σχετίζεται με
- Σχέσεις
- παραμένουν
- θυμάμαι
- αφαιρέστε
- Αναφορά
- απαιτείται
- Υποστηρικτικό υλικό
- Αποτελέσματα
- κράτηση
- σοφός
- ίδιο
- ΕΠΙΣΤΗΜΕΣ
- Επιστήμονας
- Αναζήτηση
- αναζήτηση
- Σειρές
- υπηρεσία
- Υπηρεσίες
- σειρά
- τον καθορισμό
- θα πρέπει να
- δείχνουν
- λύση
- Λύσεις
- SOLVE
- Λύει
- ειδικεύεται
- σωρός
- Εκκίνηση
- Κατάσταση
- Βήμα
- Βήματα
- κατάστημα
- υποβάλουν
- τέτοιος
- κοστούμι
- Έρευνες
- συστήματα
- στοχευμένες
- εργασίες
- τεχνικές
- Τεχνολογία
- Η
- Η περιοχή
- τους
- Μέσω
- ώρα
- τίτλους
- προς την
- Τρένο
- Εκπαίδευση
- Μεταμορφώστε
- αληθής
- φροντιστήριο
- tv
- κατανόηση
- χρήση
- περίπτωση χρήσης
- Χρήστες
- Πολύτιμος
- αξία
- Σταθερή
- εκδοχή
- κατακόρυφα
- όραμα
- τρόπους
- Εβδ.
- Τι
- Ποιό
- ευρύς
- Ευρύ φάσμα
- θα
- εργαζόμενος
- λειτουργεί
- Σας
- zephyrnet