Εκτελέστε πειράματα AutoML με μεγάλα σύνολα δεδομένων παρκέ χρησιμοποιώντας το Amazon SageMaker Autopilot

Κόμβος πηγής: 1596421

Από σήμερα, μπορείτε να χρησιμοποιήσετε Αυτόματος πιλότος Amazon SageMaker για την αντιμετώπιση εργασιών παλινδρόμησης και ταξινόμησης σε μεγάλα σύνολα δεδομένων έως 100 GB. Επιπλέον, μπορείτε πλέον να παρέχετε τα σύνολα δεδομένων σας είτε σε CSV είτε Παρκέ Apache τύπους περιεχομένου.

Οι επιχειρήσεις παράγουν περισσότερα δεδομένα από ποτέ. Η αντίστοιχη ζήτηση αυξάνεται για τη δημιουργία πληροφοριών από αυτά τα μεγάλα σύνολα δεδομένων για τη διαμόρφωση επιχειρηματικών αποφάσεων. Ωστόσο, η επιτυχής εκπαίδευση αλγορίθμων μηχανικής μάθησης τελευταίας τεχνολογίας (ML) σε αυτά τα μεγάλα σύνολα δεδομένων μπορεί να είναι δύσκολη. Ο αυτόματος πιλότος αυτοματοποιεί αυτή τη διαδικασία και παρέχει μια απρόσκοπτη εμπειρία για την εκτέλεση αυτοματοποιημένης μηχανικής εκμάθησης (AutoML) σε μεγάλα σύνολα δεδομένων έως 100 GB.

Αυτόματος πιλότος υποδειγματοληψία των μεγάλων συνόλων δεδομένων σας αυτόματα για να ταιριάζει στο μέγιστο υποστηριζόμενο όριο, διατηρώντας παράλληλα τη σπάνια κατηγορία σε περίπτωση ανισορροπία στην τάξη. Η ανισορροπία κλάσης είναι ένα σημαντικό πρόβλημα που πρέπει να γνωρίζετε στην ML, ειδικά όταν έχουμε να κάνουμε με μεγάλα σύνολα δεδομένων. Εξετάστε ένα σύνολο δεδομένων ανίχνευσης απάτης όπου μόνο ένα μικρό μέρος των συναλλαγών αναμένεται να είναι δόλια. Σε αυτήν την περίπτωση, ο Αυτόματος πιλότος υποδειγματίζει μόνο την πλειοψηφική κατηγορία, μη δόλιες συναλλαγές, ενώ διατηρεί τη σπάνια κατηγορία, τις δόλιες συναλλαγές.

Όταν εκτελείτε μια εργασία AutoML χρησιμοποιώντας τον Αυτόματο πιλότο, αποθηκεύονται όλες οι σχετικές πληροφορίες για υποδειγματοληψία amazoncloudwatch. Πλοηγηθείτε στην ομάδα καταγραφής για /aws/sagemaker/ProcessingJobs, αναζητήστε το όνομα της εργασίας σας AutoML και επιλέξτε τη ροή καταγραφής CloudWatch που περιλαμβάνει -db- στο όνομά του.

Πολλοί από τους πελάτες μας προτιμούν τον τύπο περιεχομένου Parquet για να αποθηκεύουν τα μεγάλα σύνολα δεδομένων τους. Αυτό οφείλεται γενικά στη συμπιεσμένη φύση του, στην υποστήριξη προηγμένων δομών δεδομένων, στην αποτελεσματικότητα και στις λειτουργίες χαμηλού κόστους. Αυτά τα δεδομένα μπορούν συχνά να φτάσουν έως και δεκάδες ή και εκατοντάδες GB. Τώρα, μπορείτε να μεταφέρετε απευθείας αυτά τα σύνολα δεδομένων Parquet στον Autopilot. Μπορείτε είτε να χρησιμοποιήσετε το API μας είτε να πλοηγηθείτε σε Στούντιο Amazon SageMaker για να δημιουργήσετε μια εργασία Αυτόματου πιλότου με μερικά κλικ. Μπορείτε να καθορίσετε τη θέση εισαγωγής του συνόλου δεδομένων Parquet ως ένα μόνο αρχείο ή πολλαπλά αρχεία που καθορίζονται ως αρχείο δήλωσης. Ο Αυτόματος πιλότος εντοπίζει αυτόματα τον τύπο περιεχομένου του συνόλου δεδομένων σας, το αναλύει, εξάγει σημαντικές λειτουργίες και εκπαιδεύει πολλούς αλγόριθμους ML.

Μπορείτε να ξεκινήσετε να χρησιμοποιείτε το δικό μας δείγμα σημειωματάριου για εκτέλεση AutoML με χρήση του Autopilot σε σύνολα δεδομένων Parquet.


Σχετικά με τους Συγγραφείς

H. Furkan Bozkurt, Μηχανικός Μηχανικής Μάθησης, Αυτόματος πιλότος Amazon SageMaker.

Βαλέριο Περόνε, Applied Science Manager, Amazon SageMaker Autopilot.

Πηγή: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Σφραγίδα ώρας:

Περισσότερα από Ιστολόγιο μηχανικής εκμάθησης AWS