Πώς η Latent Space χρησιμοποίησε τη βιβλιοθήκη παραλληλισμού μοντέλου Amazon SageMaker για να ωθήσει τα σύνορα μετασχηματιστών μεγάλης κλίμακας

Κόμβος πηγής: 1204406

Αυτό το ιστολόγιο συν-συγγραφέας από τη Sarah Jane Hong CSO, τον Darryl Barnhart CTO και τον Ian Thompson CEO του Latent Space και τον Prem Ranga της AWS.

Το Latent space είναι μια κρυφή αναπαράσταση αφηρημένων ιδεών που μαθαίνουν τα μοντέλα μηχανικής μάθησης (ML). Για παράδειγμα, "σκύλος", "λουλούδι" ή "πόρτα" είναι έννοιες ή τοποθεσίες σε λανθάνον χώρο. Στο Λανθάνων Χώρος, εργαζόμαστε σε έναν κινητήρα που σας επιτρέπει να χειριστείτε και να εξερευνήσετε αυτόν τον χώρο με γλώσσες και οπτικά μηνύματα. Η ομάδα του Latent Space προέρχεται από δύο πεδία που εδώ και καιρό είχαν μικρή επικάλυψη: γραφικά και επεξεργασία φυσικής γλώσσας (NLP). Παραδοσιακά, οι λεπτομέρειες των εικόνων και του κειμένου αντιμετωπίζονται ξεχωριστά, καθεμία με τη δική τους ιστορία περίπλοκης, ακριβής και εύθραυστης μηχανικής χαρακτηριστικών. Οι εργασίες NLP όπως η κατανόηση εγγράφων ή η απάντηση σε ερωτήσεις είχαν συνήθως λίγα κοινά με τις εργασίες όρασης, όπως η κατανόηση σκηνής ή η απόδοση, και συνήθως χρησιμοποιούμε πολύ διαφορετικές προσεγγίσεις και μοντέλα για κάθε εργασία. Αλλά αυτό αλλάζει γρήγορα.

Αυτή η συγχώνευση τρόπων σε έναν κοινόχρηστο λανθάνοντα χώρο ξεκλειδώνει μια νέα γενιά δημιουργικών και εμπορικών εφαρμογών, από το παιχνίδι έως την κατανόηση εγγράφων. Αλλά το ξεκλείδωμα αυτών των νέων εφαρμογών σε ένα μόνο μοντέλο ανοίγει νέες προκλήσεις κλιμάκωσης, όπως επισημαίνεται στο "The Bitter Μάθημα" του Richard Sutton, και το συναρπαστικό έργο τα τελευταία χρόνια σχετικά με τους νόμους κλιμάκωσης. Για να γίνει αυτό εφικτό, το Latent Space εργάζεται για την έρευνα αιχμής για τη συγχώνευση αυτών των τρόπων σε ένα μόνο μοντέλο, αλλά και για την κλιμάκωση και την αποτελεσματικότητά του. Εδώ μπαίνει το μοντέλο παραλληλισμού.

Amazon Sage MakerΗ μοναδική αυτοματοποιημένη διαίρεση μοντέλων και η αποτελεσματική προσέγγιση σωληνώσεων κατέστησαν δυνατή την υιοθέτηση του παραλληλισμού μοντέλων με μικρή μηχανική προσπάθεια και κλιμακώσαμε την εκπαίδευσή μας για μοντέλα πέρα ​​από το 1 δισεκατομμύριο παραμέτρους p4d.24xlarge παρουσίες A100), η οποία αποτελεί σημαντική απαίτηση για εμάς. Επιπλέον, παρατηρήσαμε ότι κατά την προπόνηση με 16 κόμβους, οκτώ ρυθμίσεις εκπαίδευσης GPU με τη βιβλιοθήκη παραλληλισμού μοντέλου SageMaker, καταγράψαμε 38% βελτίωση στην απόδοση σε σύγκριση με τις προηγούμενες προπονήσεις μας.

Προκλήσεις με την εκπαίδευση μετασχηματιστών μεγάλης κλίμακας

Στο Latent Space, συγχωνεύουμε τη γλώσσα και το όραμα σε μοντέλα μετασχηματιστών με δισεκατομμύρια παραμέτρους για να υποστηρίξουμε περιπτώσεις χρήσης "εκτός διανομής" από τη φαντασία ενός χρήστη ή που θα συνέβαιναν στον πραγματικό κόσμο, αλλά όχι στα δεδομένα εκπαίδευσης. Αντιμετωπίζουμε τις προκλήσεις που ενέχει η κλιμάκωση σε δισεκατομμύρια παραμέτρων και πέραν αυτών με δύο διαφορετικούς τρόπους:

Οι τεχνικές ανάκτησης πληροφοριών αποτελούν από καιρό βασικό συστατικό των μηχανών αναζήτησης και των εργασιών QA. Πρόσφατα, έχει σημειωθεί συναρπαστική πρόοδος συνδυάζοντας κλασικές τεχνικές υπερύθρων με μοντέρνους μετασχηματιστές, ειδικά για εργασίες απαντήσεων στις ερωτήσεις όπου ένα μοντέλο εκπαιδεύεται από κοινού με ένα νευρικό retriever που μαθαίνει να ανακτά τα σχετικά έγγραφα για να βοηθήσει στην απάντηση ερωτήσεων. Για μια επισκόπηση, δείτε την πρόσφατη εργασία του FAIR στο Ανάκτηση επαυξημένης γενιάς: Εξορθολογισμός της δημιουργίας έξυπνων μοντέλων επεξεργασίας φυσικής γλώσσας και Fusion-in-Decoder, Google Brain's ΒΑΣΙΛΕΙΟ, και της Nvidia Νευρικό Retriever για απάντηση ερωτήσεων.

Παρόλο που οι τεχνικές επαύξησης ανάκτησης βοηθούν στο κόστος και την αποτελεσματικότητα, εξακολουθούμε να μην μπορούμε να τοποθετήσουμε το μοντέλο σε μία GPU για το μεγαλύτερο μοντέλο μας. Αυτό σημαίνει ότι πρέπει να χρησιμοποιήσουμε το μοντέλο παραλληλισμού για να το εκπαιδεύσουμε. Ωστόσο, λόγω της φύσης της αρχιτεκτονικής ανάκτησης, ο σχεδιασμός του διαχωρισμού των μοντέλων μας ήταν δύσκολος λόγω της αλληλεξάρτησης μεταξύ των ανακτημένων πλαισίων μεταξύ των εισροών εκπαίδευσης. Επιπλέον, ακόμα κι αν καθορίσουμε πώς χωρίζουμε το μοντέλο μας, η εισαγωγή παραλληλισμού μοντέλου ήταν ένα σημαντικό μηχανικό καθήκον που πρέπει να κάνουμε χειροκίνητα σε ολόκληρο τον κύκλο ζωής της έρευνας και ανάπτυξης.

Η βιβλιοθήκη παραλληλισμού μοντέλου SageMaker

Ο παραλληλισμός των μοντέλων είναι η διαδικασία διαχωρισμού ενός μοντέλου μεταξύ πολλών συσκευών ή κόμβων (όπως παρουσίες που διαθέτουν GPU) και δημιουργίας ενός αποτελεσματικού αγωγού για την εκπαίδευση του μοντέλου σε αυτές τις συσκευές για τη μεγιστοποίηση της χρήσης της GPU. ο πρότυπη βιβλιοθήκη παραλληλισμού στο SageMaker καθιστά το μοντέλο παραλληλισμού πιο προσιτό παρέχοντας αυτοματοποιημένο διαχωρισμό μοντέλου, που αναφέρεται επίσης ως αυτοματοποιημένο διαχωρισμό μοντέλου και εξελιγμένος προγραμματισμός λειτουργίας αγωγών. Οι αλγόριθμοι διαχωρισμού μοντέλων μπορούν να βελτιστοποιήσουν την ταχύτητα ή την κατανάλωση μνήμης. Η βιβλιοθήκη χρησιμοποιεί έναν αλγόριθμο διαμέρισης που εξισορροπεί τη μνήμη, ελαχιστοποιεί την επικοινωνία μεταξύ συσκευών και βελτιστοποιεί την απόδοση.

Αυτόματο διαχωρισμό μοντέλου

Για τη θήκη χρήσης PyTorch, η παράλληλη βιβλιοθήκη μοντέλου εκτελεί εσωτερικά ένα βήμα ανίχνευσης (στο πρώτο βήμα εκπαίδευσης) που κατασκευάζει το γράφημα του μοντέλου και καθορίζει τα σχήματα τάσης και παραμέτρων. Στη συνέχεια κατασκευάζει ένα δέντρο, το οποίο αποτελείται από το ένθετο nn.Module αντικείμενα στο μοντέλο, καθώς και πρόσθετα δεδομένα που συλλέγονται από την ανίχνευση, όπως ο αριθμός των αποθηκευμένων nn.Parametersκαι ο χρόνος εκτέλεσης για καθένα nn.Module.

Στη συνέχεια, η βιβλιοθήκη διασχίζει αυτό το δέντρο από τη ρίζα και εκτελεί έναν αλγόριθμο διαμέρισης που εξισορροπεί το υπολογιστικό φορτίο και τη χρήση μνήμης και ελαχιστοποιεί την επικοινωνία μεταξύ των παρουσιών. Εάν πολλά nn.Modules μοιράζονται την ίδια nn.Parameter, αυτά τα modules τοποθετούνται στην ίδια συσκευή για να αποφευχθεί η διατήρηση πολλών εκδόσεων της ίδιας παραμέτρου. Αφού ληφθεί η απόφαση διαμέρισης, οι εκχωρημένες μονάδες και βάρη φορτώνονται στις συσκευές τους.

Προγραμματισμός εκτέλεσης αγωγών

Ένα άλλο βασικό χαρακτηριστικό της παράλληλης βιβλιοθήκης διανεμημένου μοντέλου SageMaker είναι σωληνώσεις, που καθορίζουν τη σειρά με την οποία πραγματοποιούνται υπολογισμοί και τα δεδομένα υποβάλλονται σε επεξεργασία σε όλες τις συσκευές κατά τη διάρκεια της προπόνησης μοντέλου. Το Pipelining βασίζεται στο διαχωρισμό ενός mini-batch σε microbatches, τα οποία τροφοδοτούνται στον αγωγό εκπαίδευσης ένα προς ένα και ακολουθούν ένα πρόγραμμα εκτέλεσης που καθορίζεται από το χρόνο εκτέλεσης της βιβλιοθήκης.

Ο αγωγός microbatch διασφαλίζει ότι όλες οι GPU χρησιμοποιούνται πλήρως, κάτι που θα πρέπει να χτίσουμε οι ίδιοι, αλλά με τη βιβλιοθήκη του παραλληλισμού αυτό συμβαίνει τακτοποιημένα πίσω από τα παρασκήνια. Τέλος, μπορούμε να χρησιμοποιήσουμε Amazon FSx, το οποίο είναι σημαντικό να διασφαλίσουμε ότι οι ταχύτητες ανάγνωσής μας είναι γρήγορες δεδομένου του αριθμού των αρχείων που διαβάζονται κατά την εκπαίδευση ενός πολυτροπικού μοντέλου με ανάκτηση.

Εκπαιδευτική αρχιτεκτονική

Το παρακάτω διάγραμμα αντιπροσωπεύει τον τρόπο με τον οποίο ρυθμίζουμε την εκπαιδευτική μας αρχιτεκτονική. Πρωταρχικοί μας στόχοι ήταν να βελτιώσουμε την ταχύτητα της εκπαίδευσης και να μειώσουμε το κόστος. Οι μετασχηματιστές εικόνας και γλωσσών που εκπαιδεύουμε είναι πολύ περίπλοκοι, με έναν πολύ μεγάλο αριθμό στρωμάτων και βαρών μέσα, που τρέχουν σε δισεκατομμύρια παραμέτρους, οι οποίες τις καθιστούν ανίκανες να χωρέσουν στη μνήμη ενός μόνο κόμβου. Κάθε κόμβος φέρει ένα υποσύνολο του μοντέλου, μέσω του οποίου τα δεδομένα ρέουν και οι μετασχηματισμοί μοιράζονται και συλλέγονται. Εγκαθιστούμε 16 p4d.24xlarge εμφανίζει η καθεμία με οκτώ GPU χρησιμοποιώντας την ακόλουθη αναπαράσταση αρχιτεκτονικής:

Καθώς αυξάνουμε τα μοντέλα μας, μια κοινή τάση είναι να αποθηκεύουμε τα πάντα στα βάρη του δικτύου. Ωστόσο, για πρακτικούς σκοπούς, θέλουμε να αυξήσουμε τα μοντέλα μας για να μάθουμε πώς να αναζητούμε σχετικά περιβάλλοντα για να βοηθήσουμε στο έργο της απόδοσης. Αυτό μας επιτρέπει να διατηρήσουμε το κόστος εξυπηρέτησης χαμηλό χωρίς συμβιβασμούς στην ποιότητα της εικόνας. Χρησιμοποιούμε ένα μεγάλο μοντέλο NLP που βασίζεται σε μετασχηματιστές και όπως αναφέρθηκε προηγουμένως, παρατηρήσαμε αύξηση 38% στην αποτελεσματικότητα της εκπαίδευσης με τη βιβλιοθήκη παραλληλισμού μοντέλου SageMaker, όπως φαίνεται από τα ακόλουθα:

  • Χρειαζόμαστε μια μείωση για κάθε υπολογισμό στην περίπτωση παραλληλισμού επιπέδων τανυστή. Αυτό παίρνει παράλληλα βήματα O (log_2 n). Δηλαδή n μηχανές που λαμβάνουν βήματα O (n), για συνολικές λειτουργίες O (n log_2 n).
  • Για τον παραλληλισμό αγωγών, απαιτούμε παράλληλα βήματα O (1) για τη μετάδοση δεδομένων κάτω από τον αγωγό
  • Λαμβάνοντας υπόψη 16 μηχανήματα με οκτώ GPU, έχουμε κόστος O (1) για παράλληλο αγωγού και O (log_2 (8)) = O (3) κόστος για παράλληλο μοντέλο βάθους.
  • Σε αυτήν την περίπτωση, βλέπουμε ότι το κόστος του δικτύου μειώνεται στο 1/3 μεταβαίνοντας σε παράλληλο αγωγού με αυτό που χρησιμοποιούμε με τον παραλληλισμό μοντέλου SageMaker και το συνολικό κόστος εκπαίδευσης μειώνεται σε 1/2 + 1/2 * 1 / log_2 (16 ) = 0.625 του αρχικού κόστους που οδηγεί σε αντίστοιχη βελτίωση της απόδοσης.

Σε γενικές γραμμές, όταν η ανάγκη δικαιολογεί κατανεμημένη εκπαίδευση (ζητήματα με μέγεθος μοντέλου κλιμάκωσης ή δεδομένα εκπαίδευσης), μπορούμε να ακολουθήσουμε ένα σύνολο βέλτιστων πρακτικών για να προσδιορίσουμε ποια προσέγγιση λειτουργεί καλύτερα.

Βέλτιστες πρακτικές για κατανεμημένη εκπαίδευση

Με βάση την εμπειρία μας, προτείνουμε να ξεκινήσετε με μια παράλληλη προσέγγιση κατανεμημένων δεδομένων. Κατανεμημένος παραλληλισμός δεδομένων όπως το Η SageMaker διανέμει παράλληλη βιβλιοθήκη δεδομένων επιλύει τα περισσότερα από τα προβλήματα δικτύωσης με αντίγραφα μοντέλου, οπότε θα πρέπει να ταιριάξετε τα μοντέλα στον μικρότερο αριθμό κόμβων και, στη συνέχεια, να αντιγράψετε το μέγεθος της παρτίδας ανάλογα με τις ανάγκες.

Εάν εξαντληθεί η μνήμη κατά τη διάρκεια της προπόνησης, όπως κάναμε σε αυτό το σενάριο, ίσως θελήσετε να μεταβείτε σε μια παράλληλη προσέγγιση μοντέλου. Ωστόσο, εξετάστε αυτές τις εναλλακτικές προτού δοκιμάσετε το μοντέλο παράλληλης εκπαίδευσης:

  • Σε υλικό εξοπλισμένο με NVIDIA Tensor Core, χρησιμοποιήστε εκπαίδευση μικτής ακρίβειας για να δημιουργήσετε ταχύτητα και να μειώσετε την κατανάλωση μνήμης.
  • Μειώστε το μέγεθος παρτίδας (ή μειώστε την ανάλυση εικόνας ή το μήκος ακολουθίας NLP, εάν είναι δυνατόν).

Επιπλέον, προτιμούμε σχέδια μοντέλων που δεν έχουν κανονικοποίηση παρτίδας όπως περιγράφεται στο Υψηλής απόδοσης αναγνώριση εικόνας μεγάλης κλίμακας χωρίς κανονικοποίηση. Εάν δεν μπορεί να αποφευχθεί, βεβαιωθείτε ότι η ομαλοποίηση παρτίδας είναι συγχρονισμένη σε όλες τις συσκευές. Όταν χρησιμοποιείτε κατανεμημένη εκπαίδευση, η παρτίδα σας κατανέμεται σε GPU, έτσι ώστε τα ακριβή στατιστικά στοιχεία παρτίδας απαιτούν συγχρονισμό σε όλες τις συσκευές. Χωρίς αυτό, η κανονικοποίηση θα έχει αυξημένο σφάλμα και έτσι θα επηρεάσει τη σύγκλιση.

Ξεκινήστε με παράλληλη εκπαίδευση μοντέλου όταν έχετε τους ακόλουθους περιορισμούς:

  • Το μοντέλο σας δεν χωράει σε μία συσκευή
  • Λόγω του μεγέθους του μοντέλου σας, αντιμετωπίζετε περιορισμούς στην επιλογή μεγαλύτερων μεγεθών παρτίδας, όπως εάν τα βάρη του μοντέλου σας καταλαμβάνουν το μεγαλύτερο μέρος της μνήμης GPU και αναγκάζεστε να επιλέξετε μικρότερο, μη βέλτιστο μέγεθος παρτίδας

Όταν βελτιστοποιείτε την απόδοση, κάντε τα εξής:

  • Χρησιμοποιήστε σωληνώσεις για επικοινωνίες μεταξύ κόμβων για να ελαχιστοποιήσετε την καθυστέρηση και να αυξήσετε την απόδοση
  • Διατηρήστε τους αγωγούς όσο το δυνατόν συντομότερα για να ελαχιστοποιήσετε τυχόν φυσαλίδες. Ο αριθμός των μικρο-παρτίδων πρέπει να συντονιστεί ώστε να ισορροπεί την υπολογιστική απόδοση με το μέγεθος των φυσαλίδων και να είναι τουλάχιστον το μήκος του αγωγού. Εάν χρειαστεί, μπορείτε να δημιουργήσετε μικρο-δέσμες σε επίπεδο διακριτικού όπως περιγράφεται στο TeraPipe: Παραλληλισμός Token Level Pipeline για την εκπαίδευση γλωσσικών μοντέλων μεγάλης κλίμακας

Κατά τη βελτιστοποίηση για το κόστος, χρησιμοποιήστε το SageMaker που διαχειρίζεται Spot Instances για εκπαίδευση. Αυτό μπορεί να βελτιστοποιήσει το κόστος των μοντέλων εκπαίδευσης έως και 90% σε σχέση με τις εμφανίσεις κατά παραγγελία. Το SageMaker διαχειρίζεται τις διακοπές Spot για λογαριασμό σας.

Άλλοι παράγοντες που πρέπει να λάβετε υπόψη:

  • Σε έναν κόμβο όταν υπάρχει γρήγορη διασύνδεση, είναι πιο αποχρωματισμένο. Εάν υπάρχει άφθονη χωρητικότητα δικτύου εντός κόμβου, η ανακατασκευή δεδομένων για βέλτιστο υπολογισμό ενδέχεται να αποφέρει όφελος.
  • Εάν οι ενεργοποιήσεις είναι πολύ μεγαλύτερες από τους τανυστές βάρους, μπορεί επίσης να βοηθήσει ένας θρυμματισμένος βελτιστοποιητής. Παρακαλώ αναφερθείτε σε Μηδέν Για περισσότερες πληροφορίες.

Ο παρακάτω πίνακας παρέχει ορισμένα κοινά σενάρια κλιμάκωσης προπόνησης και πώς μπορείτε να τα διαμορφώσετε σε AWS

σενάριο Πότε εφαρμόζεται; Λύση
Κλιμάκωση από μία μόνο GPU σε πολλές GPU Όταν ο αριθμός των δεδομένων εκπαίδευσης ή το μέγεθος του μοντέλου είναι πολύ μεγάλο Αλλαγή σε μια παρουσία πολλαπλών GPU όπως το p3.16xlarge, το οποίο έχει οκτώ GPU, με τα δεδομένα και την επεξεργασία να χωρίζονται στις οκτώ GPU και να παράγουν σχεδόν γραμμική επιτάχυνση στο χρόνο που απαιτείται για την εκπαίδευση του μοντέλου σας.
Κλιμάκωση από μία παρουσία σε πολλές παρουσίες Όταν οι ανάγκες κλιμάκωσης εκτείνονται πέρα ​​από την αλλαγή του μεγέθους παρουσίας Κλιμάκωση του αριθμού των παρουσιών με τη συνάρτηση εκτιμητή του SageMaker Python SDK, ορίζοντας το instance_type σε p3.16xlarge και το instance_count σε 2. Αντί των οκτώ GPUs σε μία μόνο p3.16xlarge, έχετε 16 GPU σε δύο ίδιες παρουσίες. Σκεφτείτε να χρησιμοποιήσετε το Η SageMaker διανέμει παράλληλη βιβλιοθήκη δεδομένων.
Επιλογή μιας παράλληλης προσέγγισης για εκπαίδευση Όταν αντιμετωπίζετε σφάλματα μνήμης κατά τη διάρκεια της προπόνησης Μεταβείτε σε μια παράλληλη προσέγγιση μοντέλου χρησιμοποιώντας το Η SageMaker διέθετε μοντέλο παράλληλης βιβλιοθήκης.
Απόδοση δικτύου για επικοινωνίες μεταξύ κόμβων Για κατανεμημένη εκπαίδευση με πολλές παρουσίες (για παράδειγμα, επικοινωνία μεταξύ των κόμβων στο σύμπλεγμα κατά την εκτέλεση μιας λειτουργίας AllReduce) Οι παρουσίες σας πρέπει να βρίσκονται στην ίδια Περιοχή και στην ίδια Ζώνη Διαθεσιμότητας. Όταν χρησιμοποιείτε το SageMaker Python SDK, αυτό γίνεται για εσάς. Τα δεδομένα εκπαίδευσης θα πρέπει επίσης να βρίσκονται στην ίδια Ζώνη Διαθεσιμότητας. Σκεφτείτε να χρησιμοποιήσετε το Η SageMaker διανέμει παράλληλη βιβλιοθήκη δεδομένων.
Βελτιστοποιημένη GPU, δίκτυο και αποθήκευση Για μεγάλης κλίμακας κατανεμημένες ανάγκες εκπαίδευσης Ο τύπος εμφάνισης p4d.24xlarge σχεδιάστηκε για γρήγορη τοπική αποθήκευση και γρήγορο backplane δικτύου με έως και 400 gigabits, και το συνιστούμε ανεπιφύλακτα ως η πιο αποδοτική επιλογή για κατανεμημένη εκπαίδευση.

Συμπέρασμα

Με την παράλληλη βιβλιοθήκη μοντέλων στο SageMaker, έχουμε πολλά πλεονεκτήματα από το κουτί, όπως η αυτοματοποιημένη διαμέριση μοντέλων και η αποτελεσματική διοχέτευση με σωληνώσεις. Σε αυτήν την ανάρτηση, μοιραστήκαμε τις προκλήσεις μας με την υπόθεση χρήσης ML, τις σκέψεις μας για διαφορετικές προσεγγίσεις εκπαίδευσης και τον τρόπο με τον οποίο χρησιμοποιήσαμε τη βιβλιοθήκη παραλληλισμού μοντέλου Amazon SageMaker για να επιταχύνουμε την εκπαίδευσή μας. Το καλύτερο από όλα, μπορεί να χρειαστούν μόνο λίγες ώρες για να υιοθετηθούν βέλτιστες πρακτικές για παραλληλισμούς μοντέλων και βελτιώσεις απόδοσης που περιγράφονται εδώ. Εάν αυτή η ανάρτηση σας βοηθά ή σας εμπνέει για να λύσετε ένα πρόβλημα, θα θέλαμε πολύ να το ακούσουμε! Παρακαλώ μοιραστείτε τα σχόλια και τα σχόλιά σας.

αναφορές

Για περισσότερες πληροφορίες, δείτε παρακάτω:


Σχετικά με τους Συγγραφείς

Πρεμ Ράνγκα είναι ένας αρχιτέκτονας Enterprise Solutions με έδρα την Ατλάντα, GA. Είναι μέλος της κοινότητας τεχνικού πεδίου μηχανικής μάθησης και λατρεύει να συνεργάζεται με πελάτες στο ταξίδι τους στο ML και στο AI. Ο Πρεμ είναι παθιασμένος με τη ρομποτική, είναι αυτόνομος ερευνητής οχημάτων και δημιούργησε επίσης την ελεγχόμενη από την Alexa Beer Pours στο Χιούστον και σε άλλες τοποθεσίες.

Σάρα Τζέιν Χονγκ είναι ο συνιδρυτής και Διευθυντής Επιστημών στο Latent Space. Το υπόβαθρο της βρίσκεται στη διασταύρωση της αλληλεπίδρασης ανθρώπου-υπολογιστή και της μηχανικής μάθησης. Προηγουμένως ηγήθηκε της έρευνας NLP στο Sonar (που αποκτήθηκε από τον Marchex), η οποία εξυπηρετεί επιχειρήσεις στον χώρο συνομιλίας AI. Είναι επίσης μια αξιόλογη προγραμματιστής AR / VR, έχοντας λάβει βραβεία και υποτροφίες από τους Oculus, Mozilla Mixed Reality και Microsoft Hololens.

Ντάριλ Μπάρνχαρτ είναι ο συνιδρυτής και Διευθυντής Τεχνολογίας στο Latent Space. Είναι ένας έμπειρος προγραμματιστής με εμπειρία στην επιτάχυνση GPU, γραφικά υπολογιστών, δεδομένα μεγάλης κλίμακας και μηχανική μάθηση. Άλλα πάθη περιλαμβάνουν τα μαθηματικά, την ανάπτυξη παιχνιδιών και τη μελέτη των πληροφοριών.

Ίαν Τόμσον είναι ο ιδρυτής και διευθύνων σύμβουλος του Latent Space. Ο Ian είναι μηχανικός και ερευνητής εμπνευσμένος από το «κοντινό δυνατό» - τεχνολογίες που θα έχουν μεγάλο αντίκτυπο στη ζωή μας. Επί του παρόντος επικεντρώθηκε στην απλοποίηση και κλιμάκωση της εκμάθησης πολυτροπικής αναπαράστασης για τη δημιουργία ασφαλούς και δημιουργικής AI. Προηγουμένως βοήθησε στην κατασκευή εταιρειών σε γραφικά / εικονική πραγματικότητα (AltspaceVR, που αποκτήθηκε από τη Microsoft) και εκπαίδευση / NLP (HSE).

Πηγή: https://aws.amazon.com/blogs/machine-learning/how-latent-space-used-the-amazon-sagemaker-model-parallelism-library-to-push-the-frontiers-of-large- μετασχηματιστές κλίμακας /

Σφραγίδα ώρας:

Περισσότερα από Ιστολόγιο μηχανικής εκμάθησης AWS