Οι χρονοσειρές είναι αλληλουχίες σημείων δεδομένων που εμφανίζονται με διαδοχική σειρά για κάποια χρονική περίοδο. Συχνά αναλύουμε αυτά τα σημεία δεδομένων για να λάβουμε καλύτερες επιχειρηματικές αποφάσεις ή να αποκτήσουμε ανταγωνιστικά πλεονεκτήματα. Ένα παράδειγμα είναι η Shimamura Music, η οποία χρησιμοποίησε Πρόβλεψη του Αμαζονίου προς την βελτίωση των ποσοστών ελλείψεων και αύξηση της αποδοτικότητας των επιχειρήσεων. Ένα άλλο εξαιρετικό παράδειγμα είναι ο Arneg, ο οποίος χρησιμοποίησε το Forecast για να προβλέψει τις ανάγκες συντήρησης.
Η AWS παρέχει διάφορες υπηρεσίες που εξυπηρετούν δεδομένα χρονοσειρών που είναι χαμηλού κώδικα/χωρίς κώδικα, τις οποίες μπορούν να χρησιμοποιήσουν τόσο οι επαγγελματίες της μηχανικής μάθησης (ML) όσο και οι μη ML για τη δημιουργία λύσεων ML. Αυτά περιλαμβάνουν βιβλιοθήκες και υπηρεσίες όπως AutoGluon, Καμβάς Amazon SageMaker, Amazon SageMaker Data Wrangler, Αυτόματος πιλότος Amazon SageMaker, να Πρόβλεψη του Αμαζονίου.
Σε αυτήν την ανάρτηση, επιδιώκουμε να διαχωρίσουμε ένα σύνολο δεδομένων χρονοσειράς σε μεμονωμένες συστάδες που παρουσιάζουν υψηλότερο βαθμό ομοιότητας μεταξύ των σημείων δεδομένων του και μειώνουν το θόρυβο. Ο σκοπός είναι να βελτιωθεί η ακρίβεια είτε εκπαιδεύοντας ένα καθολικό μοντέλο που περιέχει τη διαμόρφωση του συμπλέγματος είτε με τοπικά μοντέλα ειδικά για κάθε σύμπλεγμα.
Εξερευνούμε πώς να εξαγάγουμε χαρακτηριστικά, που ονομάζονται επίσης χαρακτηριστικά, από δεδομένα χρονοσειρών χρησιμοποιώντας το Βιβλιοθήκη TSFresh—ένα πακέτο Python για τον υπολογισμό μεγάλου αριθμού χαρακτηριστικών χρονοσειρών—και πραγματοποιήστε ομαδοποίηση χρησιμοποιώντας το Αλγόριθμος K-Means υλοποιείται στο βιβλιοθήκη scikit-learn.
Χρησιμοποιούμε η ομαδοποίηση χρονοσειρών χρησιμοποιώντας TSFresh + KMeans σημειωματάριο, το οποίο είναι διαθέσιμο στο δικό μας GitHub repo. Συνιστούμε να χρησιμοποιείτε αυτό το σημειωματάριο Στούντιο Amazon SageMaker, ένα διαδικτυακό, ολοκληρωμένο περιβάλλον ανάπτυξης (IDE) για ML.
Επισκόπηση λύσεων
Η ομαδοποίηση είναι μια τεχνική ML χωρίς επίβλεψη που ομαδοποιεί στοιχεία με βάση μια μέτρηση απόστασης. Η Ευκλείδεια απόσταση χρησιμοποιείται πιο συχνά για μη διαδοχικά σύνολα δεδομένων. Ωστόσο, επειδή μια χρονοσειρά έχει εγγενώς μια ακολουθία (χρονοσήμανση), η Ευκλείδεια απόσταση δεν λειτουργεί καλά όταν χρησιμοποιείται απευθείας σε χρονοσειρές, επειδή είναι αμετάβλητη στις χρονικές μετατοπίσεις, αγνοώντας τη χρονική διάσταση των δεδομένων. Για μια πιο λεπτομερή εξήγηση, ανατρέξτε στο Ταξινόμηση και ομαδοποίηση χρονοσειρών με Python. Μια καλύτερη μέτρηση απόστασης που λειτουργεί απευθείας σε χρονοσειρές είναι το Dynamic Time Warping (DTW). Για ένα παράδειγμα ομαδοποίησης με βάση αυτήν τη μέτρηση, ανατρέξτε στο Δεδομένα χρονοσειρών συμπλέγματος για χρήση με το Amazon Forecast.
Σε αυτήν την ανάρτηση, δημιουργούμε χαρακτηριστικά από το σύνολο δεδομένων χρονοσειρών χρησιμοποιώντας τη βιβλιοθήκη TSFresh Python για εξαγωγή δεδομένων. TSFresh είναι μια βιβλιοθήκη που υπολογίζει ένα μεγάλο αριθμό χαρακτηριστικών χρονοσειρών, που περιλαμβάνουν μεταξύ άλλων την τυπική απόκλιση, το ποσοστό και την εντροπία Fourier. Αυτό μας επιτρέπει να αφαιρέσουμε τη χρονική διάσταση του συνόλου δεδομένων και να εφαρμόσουμε κοινές τεχνικές που λειτουργούν για δεδομένα με ισοπεδωμένες μορφές. Εκτός από το TSFresh, χρησιμοποιούμε επίσης StandardScaler, το οποίο τυποποιεί τα χαρακτηριστικά αφαιρώντας τη μέση τιμή και κλιμακώνοντας τη διακύμανση μονάδας και Ανάλυση κύριων συστατικών (PCA) για την εκτέλεση μείωσης διαστάσεων. Η κλιμάκωση μειώνει την απόσταση μεταξύ των σημείων δεδομένων, κάτι που με τη σειρά του προάγει τη σταθερότητα στη διαδικασία εκπαίδευσης του μοντέλου και η μείωση διαστάσεων επιτρέπει στο μοντέλο να μαθαίνει από λιγότερα χαρακτηριστικά διατηρώντας τις κύριες τάσεις και μοτίβα, επιτρέποντας έτσι πιο αποτελεσματική εκπαίδευση.
Φόρτωση δεδομένων
Για αυτό το παράδειγμα, χρησιμοποιούμε το Σετ δεδομένων UCI Online Retail II και εκτελέστε τα βασικά βήματα καθαρισμού και προετοιμασίας δεδομένων όπως περιγράφονται λεπτομερώς στο Σημειωματάριο καθαρισμού και προετοιμασίας δεδομένων.
Εξαγωγή χαρακτηριστικών με TSFresh
Ας ξεκινήσουμε χρησιμοποιώντας το TSFresh για να εξαγάγουμε χαρακτηριστικά από το σύνολο δεδομένων χρονοσειρών μας:
Σημειώστε ότι τα δεδομένα μας έχουν μετατραπεί από χρονοσειρά σε πίνακα σύγκρισης StockCode
αξίες vs. Feature values
.
Στη συνέχεια, αφαιρούμε όλες τις δυνατότητες με n/a
αξίες χρησιμοποιώντας το dropna
μέθοδος:
Στη συνέχεια κλιμακώνουμε τα χαρακτηριστικά χρησιμοποιώντας StandardScaler
. Οι τιμές στα εξαγόμενα χαρακτηριστικά αποτελούνται από αρνητικές και θετικές τιμές. Ως εκ τούτου, χρησιμοποιούμε StandardScaler
αντί του MinMaxScaler:
Χρησιμοποιούμε PCA για να κάνουμε μείωση διαστάσεων:
Και προσδιορίζουμε τον βέλτιστο αριθμό εξαρτημάτων για PCA:
Ο επεξηγημένος λόγος διακύμανσης είναι το ποσοστό διακύμανσης που αποδίδεται σε καθένα από τα επιλεγμένα στοιχεία. Συνήθως, προσδιορίζετε τον αριθμό των στοιχείων που θα συμπεριληφθούν στο μοντέλο σας προσθέτοντας αθροιστικά τον επεξηγημένο λόγο διακύμανσης κάθε στοιχείου μέχρι να φτάσετε στο 0.8–0.9 για να αποφύγετε την υπερβολική προσαρμογή. Η βέλτιστη τιμή εμφανίζεται συνήθως στον αγκώνα.
Όπως φαίνεται στο παρακάτω διάγραμμα, η τιμή του αγκώνα είναι περίπου 100. Επομένως, χρησιμοποιούμε 100 ως τον αριθμό των στοιχείων για το PCA.
Ομαδοποίηση με K-Means
Τώρα ας χρησιμοποιήσουμε το K-Means με τη μέτρηση της Ευκλείδειας απόστασης για ομαδοποίηση. Στο παρακάτω απόσπασμα κώδικα, προσδιορίζουμε τον βέλτιστο αριθμό συμπλεγμάτων. Η προσθήκη περισσότερων συστάδων μειώνει την τιμή αδράνειας, αλλά μειώνει επίσης τις πληροφορίες που περιέχονται σε κάθε σύμπλεγμα. Επιπλέον, περισσότερα συμπλέγματα σημαίνει περισσότερα τοπικά μοντέλα προς διατήρηση. Επομένως, θέλουμε να έχουμε ένα μικρό μέγεθος συμπλέγματος με σχετικά χαμηλή τιμή αδράνειας. Το ευρετικό αγκώνα λειτουργεί καλά για την εύρεση του βέλτιστου αριθμού συστάδων.
Το παρακάτω διάγραμμα απεικονίζει τα ευρήματά μας.
Με βάση αυτό το διάγραμμα, αποφασίσαμε να χρησιμοποιήσουμε δύο συμπλέγματα για το K-Means. Πήραμε αυτήν την απόφαση επειδή το άθροισμα τετραγώνων εντός του συμπλέγματος (WCSS) μειώνεται με τον υψηλότερο ρυθμό μεταξύ ενός και δύο συστάδων. Είναι σημαντικό να εξισορροπήσετε την ευκολία συντήρησης με την απόδοση και την πολυπλοκότητα του μοντέλου, επειδή παρόλο που το WCSS συνεχίζει να μειώνεται με περισσότερα cluster, τα πρόσθετα cluster αυξάνουν τον κίνδυνο υπερβολικής προσαρμογής. Επιπλέον, μικρές παραλλαγές στο σύνολο δεδομένων μπορεί να μειώσουν απροσδόκητα την ακρίβεια.
Είναι σημαντικό να σημειωθεί ότι και οι δύο μέθοδοι ομαδοποίησης, K-Means με Ευκλείδεια απόσταση (που συζητούνται σε αυτήν την ανάρτηση) και Αλγόριθμος K-means με DTW, έχουν τα δυνατά και τα αδύνατα σημεία τους. Η καλύτερη προσέγγιση εξαρτάται από τη φύση των δεδομένων σας και τις μεθόδους πρόβλεψης που χρησιμοποιείτε. Επομένως, συνιστούμε ανεπιφύλακτα να πειραματιστείτε και με τις δύο προσεγγίσεις και να συγκρίνετε την απόδοσή τους για να αποκτήσετε μια πιο ολιστική κατανόηση των δεδομένων σας.
Συμπέρασμα
Σε αυτήν την ανάρτηση, συζητήσαμε τις ισχυρές τεχνικές εξαγωγής και ομαδοποίησης χαρακτηριστικών για δεδομένα χρονοσειρών. Συγκεκριμένα, δείξαμε πώς να χρησιμοποιείτε το TSFresh, μια δημοφιλή βιβλιοθήκη Python για εξαγωγή χαρακτηριστικών, για να προεπεξεργάζεστε τα δεδομένα χρονοσειρών σας και να αποκτάτε σημαντικές λειτουργίες.
Όταν ολοκληρωθεί το βήμα της ομαδοποίησης, μπορείτε να εκπαιδεύσετε πολλά μοντέλα πρόβλεψης για κάθε σύμπλεγμα ή να χρησιμοποιήσετε τη διαμόρφωση συμπλέγματος ως δυνατότητα. Αναφέρομαι στο Οδηγός προγραμματιστή Amazon Forecast για πληροφορίες σχετικά με απορρόφηση δεδομένων, προγνωστική εκπαίδευση, να δημιουργία προβλέψεων. Εάν έχετε μεταδεδομένα στοιχείων και σχετικά δεδομένα χρονοσειρών, μπορείτε επίσης να τα συμπεριλάβετε ως σύνολα δεδομένων εισόδου για εκπαίδευση στο Forecast. Για περισσότερες πληροφορίες, ανατρέξτε στο Ξεκινήστε το επιτυχημένο ταξίδι σας με την πρόβλεψη χρονοσειρών με το Amazon Forecast.
αναφορές
Σχετικά με τους Συγγραφείς
Αλεξάντρ Πατρούσεφ είναι AI/ML Specialist Solutions Architect στην AWS, με έδρα το Λουξεμβούργο. Είναι παθιασμένος με το cloud και τη μηχανική μάθηση και τον τρόπο με τον οποίο θα μπορούσαν να αλλάξουν τον κόσμο. Εκτός δουλειάς, του αρέσει η πεζοπορία, ο αθλητισμός και να περνά χρόνο με την οικογένειά του.
Τσονγκ Εν Λιμ είναι αρχιτέκτονας λύσεων στην AWS. Πάντα διερευνά τρόπους για να βοηθήσει τους πελάτες να καινοτομήσουν και να βελτιώσουν τις ροές εργασίας τους. Στον ελεύθερο χρόνο του λατρεύει να βλέπει anime και να ακούει μουσική.
Έγκορ Μιάσνικοφ είναι αρχιτέκτονας λύσεων στην AWS με έδρα τη Γερμανία. Είναι παθιασμένος με τον ψηφιακό μετασχηματισμό της ζωής μας, των επιχειρήσεων και του ίδιου του κόσμου, καθώς και με τον ρόλο της τεχνητής νοημοσύνης σε αυτόν τον μετασχηματισμό. Εκτός δουλειάς, του αρέσει να διαβάζει βιβλία περιπέτειας, να κάνει πεζοπορία και να περνά χρόνο με την οικογένειά του.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/
- :είναι
- 1
- 10
- 100
- 7
- 8
- 9
- a
- ΠΛΗΡΟΦΟΡΙΕΣ
- ακρίβεια
- Επιπλέον
- Πρόσθετος
- Επιπλέον
- πλεονεκτήματα
- Περιπέτεια
- AI / ML
- αλγόριθμος
- Όλα
- επιτρέπει
- Αν και
- πάντοτε
- Amazon
- μεταξύ των
- αναλύσει
- και
- Anime
- Άλλος
- Εφαρμογή
- πλησιάζω
- προσεγγίσεις
- περίπου
- ΕΙΝΑΙ
- τεχνητός
- τεχνητή νοημοσύνη
- AS
- At
- διαθέσιμος
- αποφύγετε
- AWS
- Υπόλοιπο
- βασίζονται
- βασικός
- επειδή
- ΚΑΛΎΤΕΡΟΣ
- Καλύτερα
- μεταξύ
- Βιβλία
- ώθηση
- Κτίριο
- επιχείρηση
- επιχειρήσεις
- by
- υπολογίζει
- που ονομάζεται
- CAN
- αλλαγή
- χαρακτηριστικά
- Διάγραμμα
- ταξινόμηση
- Καθάρισμα
- Backup
- συστάδα
- ομαδοποίηση
- κωδικός
- Κοινός
- συνήθως
- συγκρίνοντας
- ανταγωνιστική
- πλήρης
- περίπλοκο
- συστατικό
- εξαρτήματα
- χρήση υπολογιστή
- διαμόρφωση
- Περιέχει
- συνεχίζεται
- μετατρέπονται
- θα μπορούσε να
- Πελάτες
- ημερομηνία
- σημεία δεδομένων
- σύνολα δεδομένων
- αποφάσισε
- απόφαση
- αποφάσεις
- μείωση
- Πτυχίο
- εξαρτάται
- λεπτομερής
- Προσδιορίστε
- Εργολάβος
- Ανάπτυξη
- απόκλιση
- ψηφιακό
- ψηφιακή Μετασχηματισμού
- Διάσταση
- κατευθείαν
- συζήτηση
- απόσταση
- Όχι
- Πτώση
- δυναμικός
- κάθε
- αποτελεσματικός
- είτε
- ενεργοποίηση
- Περιβάλλον
- Αιθέρας (ΕΤΗ)
- παράδειγμα
- έκθεμα
- εξήγησε
- εξήγηση
- διερευνήσει
- Εξερευνώντας
- εκχύλισμα
- εξαγωγή
- οικογένεια
- Χαρακτηριστικό
- Χαρακτηριστικά
- εύρεση
- Εξής
- Για
- Πρόβλεψη
- Δωρεάν
- από
- Επί πλέον
- Κέρδος
- παράγουν
- Germany
- Παγκόσμιο
- Γλουόνη
- εξαιρετική
- Ομάδα
- Έχω
- βοήθεια
- υψηλότερο
- υψηλότερο
- υψηλά
- πεζοπορία
- ολιστική
- Πως
- Πώς να
- Ωστόσο
- HTML
- http
- HTTPS
- i
- ICS
- εφαρμοστεί
- εισαγωγή
- σημαντικό
- βελτίωση
- in
- περιλαμβάνουν
- περιλαμβάνει
- Αυξάνουν
- ατομικές
- αδράνεια
- πληροφορίες
- νεωτερίζω
- εισαγωγή
- αντί
- ενσωματωθεί
- Νοημοσύνη
- IT
- αντικειμένων
- ΤΟΥ
- εαυτό
- ταξίδι
- large
- ΜΑΘΑΊΝΩ
- μάθηση
- βιβλιοθήκες
- Βιβλιοθήκη
- Μου αρέσει
- Ακούγοντας
- ζωές
- τοπικός
- Χαμηλός
- Λουξεμβούργο
- μηχανή
- μάθηση μηχανής
- που
- διατηρήσουν
- συντήρηση
- μεγάλες
- κάνω
- νόημα
- μέσα
- Μεταδεδομένα
- μέθοδος
- μέθοδοι
- μετρικός
- ML
- μοντέλο
- μοντέλα
- περισσότερο
- πιο αποτελεσματικό
- πλέον
- πολλαπλούς
- Μουσική
- Φύση
- αρνητικός
- Θόρυβος
- σημειωματάριο
- αριθμός
- αποκτήσει
- of
- on
- ONE
- διαδικτυακά (online)
- σε απευθείας σύνδεση λιανική
- βέλτιστη
- τάξη
- Άλλα
- εκτός
- πακέτο
- παθιασμένος
- πρότυπα
- ποσοστό
- εκτελέσει
- επίδοση
- περίοδος
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- σημεία
- Δημοφιλής
- θετικός
- Θέση
- ισχυρός
- διαδικασια μας
- προωθεί
- παρέχει
- σκοπός
- Python
- Τιμή
- Τιμές
- αναλογία
- φθάσουν
- Ανάγνωση
- συνιστώ
- μείωση
- μειώνει
- σχετίζεται με
- σχετικά
- αφαιρέστε
- αφαίρεση
- λιανική πώληση
- συγκράτησης
- Κίνδυνος
- Ρόλος
- τρέξιμο
- σοφός
- Κλίμακα
- απολέπιση
- Επιδιώξτε
- επιλέγονται
- ξεχωριστό
- Ακολουθία
- Σειρές
- Υπηρεσίες
- Βάρδιες
- έλλειψη
- παρουσιάζεται
- Μέγεθος
- small
- Λύσεις
- μερικοί
- ειδικός
- συγκεκριμένες
- ειδικά
- Δαπάνες
- Αθλητισμός
- πλατείες
- σταθερότητα
- πρότυπο
- Εκκίνηση
- Βήμα
- Βήματα
- δυνατά
- επιτυχής
- τραπέζι
- τεχνικές
- ότι
- Η
- οι πληροφορίες
- ο κόσμος
- τους
- εκ τούτου
- επομένως
- Αυτοί
- ώρα
- Χρονική σειρά
- timestamp
- προς την
- μαζι
- Τρένο
- Εκπαίδευση
- Μεταμόρφωση
- Τάσεις
- ΣΤΡΟΦΗ
- συνήθως
- κατανόηση
- μονάδα
- us
- χρήση
- συνήθως
- αξιοποιώντας
- αξία
- Αξίες
- διάφορα
- vs
- παρακολουθείτε
- Τρόπος..
- τρόπους
- Web-based
- ΛΟΙΠΌΝ
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- με
- Εργασία
- ροές εργασίας
- λειτουργεί
- κόσμος
- Σας
- zephyrnet