Οι επιχειρήσεις συλλέγουν όλο και περισσότερα δεδομένα κάθε μέρα για να οδηγήσουν σε διαδικασίες όπως η λήψη αποφάσεων, η αναφορά και η μηχανική μάθηση (ML). Πριν καθαρίσετε και μετατρέψετε τα δεδομένα σας, πρέπει να προσδιορίσετε εάν είναι κατάλληλα για χρήση. Τα λανθασμένα, ελλιπή ή εσφαλμένα δεδομένα μπορεί να έχουν μεγάλες επιπτώσεις στα μεταγενέστερα αναλυτικά στοιχεία και τις διαδικασίες ML. Η εκτέλεση ελέγχων ποιότητας δεδομένων βοηθά στον εντοπισμό προβλημάτων νωρίτερα στη ροή εργασίας σας, ώστε να μπορείτε να τα επιλύσετε πιο γρήγορα. Επιπλέον, η εκτέλεση αυτών των ελέγχων χρησιμοποιώντας μια αρχιτεκτονική που βασίζεται σε συμβάντα σάς βοηθά να μειώσετε τα χειροκίνητα σημεία επαφής και να κλιμακώσετε με αυξανόμενο όγκο δεδομένων.
AWS Glue Data Brew είναι ένα εργαλείο προετοιμασίας οπτικών δεδομένων που διευκολύνει την εύρεση στατιστικών στοιχείων ποιότητας δεδομένων, όπως διπλότυπες τιμές, τιμές που λείπουν και ακραίες τιμές στα δεδομένα σας. Μπορείτε επίσης να ρυθμίσετε κανόνες ποιότητας δεδομένων στο DataBrew για να πραγματοποιείτε ελέγχους υπό όρους βάσει των μοναδικών επιχειρηματικών σας αναγκών. Για παράδειγμα, ένας κατασκευαστής μπορεί να χρειαστεί να διασφαλίσει ότι δεν υπάρχουν διπλές τιμές ειδικά στο α Part ID
στήλη ή ένας πάροχος υγειονομικής περίθαλψης μπορεί να ελέγξει αυτές τις τιμές σε ένα SSN
στήλη έχουν ορισμένο μήκος. Αφού δημιουργήσετε και επικυρώσετε αυτούς τους κανόνες με το DataBrew, μπορείτε να χρησιμοποιήσετε Amazon EventBridge, Λειτουργίες βημάτων AWS, AWS Lambda, να Υπηρεσία απλών ειδοποιήσεων Amazon (Amazon SNS) για να δημιουργήσετε μια αυτοματοποιημένη ροή εργασίας και να στείλετε μια ειδοποίηση όταν ένας κανόνας αποτυγχάνει στον έλεγχο επικύρωσης.
Σε αυτήν την ανάρτηση, σας καθοδηγούμε στη ροή εργασιών από άκρο σε άκρο και πώς να εφαρμόσετε αυτήν τη λύση. Αυτή η ανάρτηση περιλαμβάνει έναν οδηγό βήμα προς βήμα, ένα Μοντέλο εφαρμογής χωρίς διακομιστή AWS πρότυπο (AWS SAM) και παράδειγμα κώδικα που μπορείτε να χρησιμοποιήσετε για να αναπτύξετε την εφαρμογή στο δικό σας περιβάλλον AWS.
Επισκόπηση λύσεων
Η λύση σε αυτή την ανάρτηση συνδυάζεται χωρίς διακομιστή Υπηρεσίες AWS για τη δημιουργία ενός πλήρως αυτοματοποιημένου αγωγού συμβάντων από άκρο σε άκρο για επικύρωση ποιότητας δεδομένων. Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσης μας.
Η ροή εργασιών λύσης περιλαμβάνει τα ακόλουθα βήματα:
- Όταν ανεβάζετε νέα δεδομένα στο δικό σας Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), τα συμβάντα αποστέλλονται στο EventBridge.
- Ένας κανόνας EventBridge ενεργοποιεί μια μηχανή κατάστασης λειτουργίας Step Functions για εκτέλεση.
- Το μηχάνημα κατάστασης ξεκινά μια εργασία προφίλ DataBrew, διαμορφωμένη με ένα σύνολο κανόνων και κανόνες ποιότητας δεδομένων. Εάν σκέφτεστε να δημιουργήσετε μια παρόμοια λύση, η θέση εξόδου εργασίας του προφίλ DataBrew και οι κάδοι δεδομένων προέλευσης S3 θα πρέπει να είναι μοναδικές. Αυτό αποτρέπει τις αναδρομικές εκτελέσεις εργασιών. Αναπτύσσουμε τους πόρους μας με ένα AWS CloudFormation πρότυπο, το οποίο δημιουργεί μοναδικούς κάδους S3.
- Μια συνάρτηση Lambda διαβάζει τα αποτελέσματα ποιότητας δεδομένων από το Amazon S3 και επιστρέφει μια Boolean απόκριση στο μηχάνημα κατάστασης. Η συνάρτηση επιστρέφει
false
εάν ένας ή περισσότεροι κανόνες στο σύνολο κανόνων αποτύχουν, και επιστρέφειtrue
αν πετύχουν όλοι οι κανόνες. - Αν η απάντηση Boolean είναι
false
, το μηχάνημα κατάστασης στέλνει μια ειδοποίηση μέσω email με το Amazon SNS και το μηχάνημα κατάστασης τελειώνει σε αfailed
κατάσταση. Αν η απάντηση Boolean είναιtrue
, η κρατική μηχανή καταλήγει σε αsucceed
κατάσταση. Μπορείτε επίσης να επεκτείνετε τη λύση σε αυτό το βήμα για να εκτελέσετε άλλες εργασίες σε περίπτωση επιτυχίας ή αποτυχίας. Για παράδειγμα, εάν επιτύχουν όλοι οι κανόνες, μπορείτε να στείλετε ένα μήνυμα EventBridge για να ενεργοποιήσετε μια άλλη εργασία μετασχηματισμού στο DataBrew.
Σε αυτήν την ανάρτηση, χρησιμοποιείτε το AWS CloudFormation για να αναπτύξετε μια πλήρως λειτουργική επίδειξη της λύσης επικύρωσης ποιότητας δεδομένων βάσει συμβάντων. Μπορείτε να δοκιμάσετε τη λύση μεταφορτώνοντας ένα έγκυρο αρχείο τιμών διαχωρισμένων με κόμματα (CSV) στο Amazon S3, ακολουθούμενο από ένα μη έγκυρο αρχείο CSV.
Τα βήματα είναι τα εξής:
- Εκκινήστε μια στοίβα CloudFormation για να αναπτύξετε τους πόρους της λύσης.
- Δοκιμάστε το διάλυμα:
- Μεταφορτώστε ένα έγκυρο αρχείο CSV στο Amazon S3 και παρατηρήστε την επικύρωση ποιότητας δεδομένων και την κατάσταση του μηχανήματος Step Functions.
- Ανεβάστε ένα μη έγκυρο αρχείο CSV στο Amazon S3 και παρατηρήστε την επικύρωση ποιότητας δεδομένων και την κατάσταση λειτουργίας του μηχανήματος Step Functions και λάβετε μια ειδοποίηση μέσω email από το Amazon SNS.
Όλο το δείγμα κώδικα μπορεί να βρεθεί στο Αποθετήριο GitHub.
Προϋποθέσεις
Για αυτήν την καθοδήγηση, θα πρέπει να έχετε τις ακόλουθες προϋποθέσεις:
Αναπτύξτε τους πόρους λύσης χρησιμοποιώντας το AWS CloudFormation
Χρησιμοποιείτε μια στοίβα CloudFormation για να αναπτύξετε τους πόρους που απαιτούνται για τη λύση επικύρωσης ποιότητας δεδομένων βάσει συμβάντων. Η στοίβα περιλαμβάνει ένα παράδειγμα συνόλου δεδομένων και κανόνων στο DataBrew.
- Συνδεθείτε στον λογαριασμό σας AWS και, στη συνέχεια, επιλέξτε Εκκίνηση στοίβας:
- Στις Γρήγορη δημιουργία στοίβας σελίδα, για Διεύθυνση ηλεκτρονικού ταχυδρομείου, εισαγάγετε μια έγκυρη διεύθυνση email για ειδοποιήσεις email Amazon SNS.
- Αφήστε τις υπόλοιπες επιλογές στις προεπιλογές.
- Επιλέξτε τα πλαίσια ελέγχου επιβεβαίωσης.
- Επιλέξτε Δημιουργήστε στοίβα.
Η στοίβα CloudFormation χρειάζεται περίπου 5 λεπτά για να φτάσει CREATE_COMPLETE
κατάστασης.
- Ελέγξτε τα εισερχόμενα της διεύθυνσης email που καταχωρίσατε και αποδεχτείτε τη συνδρομή SNS.
Πρέπει να ελέγξετε και να αποδεχτείτε την επιβεβαίωση της συνδρομής για να επιδείξετε τη δυνατότητα ειδοποίησης μέσω email στο τέλος της αναλυτικής παρουσίασης.
Στις Έξοδοι καρτέλα της στοίβας, μπορείτε να βρείτε τις διευθύνσεις URL για να περιηγηθείτε στους πόρους DataBrew και Step Functions που δημιούργησε το πρότυπο. Σημειώστε επίσης τις ολοκληρωμένες εντολές AWS CLI που χρησιμοποιείτε σε επόμενα βήματα.
Εάν επιλέξετε το AWSGlueDataBrewRuleset
σύνδεσμος τιμής, θα πρέπει να δείτε τη σελίδα λεπτομερειών του συνόλου κανόνων, όπως στο παρακάτω στιγμιότυπο οθόνης. Σε αυτήν την περιγραφή, δημιουργούμε ένα σύνολο κανόνων ποιότητας δεδομένων με τρεις κανόνες που ελέγχουν για τιμές που λείπουν, ακραίες τιμές και μήκος συμβολοσειράς.
Δοκιμάστε τη λύση
Στα ακόλουθα βήματα, χρησιμοποιείτε το AWS CLI για να ανεβάσετε σωστές και εσφαλμένες εκδόσεις του αρχείου CSV για να δοκιμάσετε τη λύση επικύρωσης ποιότητας δεδομένων βάσει συμβάντων.
- Ανοίξτε ένα τερματικό ή γραμμή εντολών και χρησιμοποιήστε το AWS CLI για λήψη δειγμάτων δεδομένων. Χρησιμοποιήστε την εντολή από την έξοδο στοίβας CloudFormation με το όνομα του κλειδιού
CommandToDownloadTestData
: - Χρησιμοποιήστε ξανά το AWS CLI για να ανεβάσετε το αμετάβλητο αρχείο CSV στον κάδο S3 σας. Αντικαταστήστε τη συμβολοσειρά με το όνομα του κάδου σας ή αντιγράψτε και επικολλήστε την εντολή που σας παρέχεται από την έξοδο του προτύπου CloudFormation:
- Στην κονσόλα Step Functions, εντοπίστε το μηχάνημα κατάστασης που δημιουργήθηκε από το πρότυπο CloudFormation.
Μπορείτε να βρείτε μια διεύθυνση URL στις εξόδους CloudFormation που αναφέρθηκαν προηγουμένως.
- Στις Εκτελέσεις καρτέλα, θα πρέπει να δείτε μια νέα εκτέλεση της κατάστασης μηχανής.
- Επιλέξτε τη διεύθυνση URL της εκτέλεσης για να προβάλετε το γράφημα του μηχανήματος κατάστασης και να παρακολουθήσετε την πρόοδό του.
Η παρακάτω εικόνα δείχνει τη ροή εργασιών της κρατικής μας μηχανής.
Για να αποδείξετε την αποτυχία ενός κανόνα ποιότητας δεδομένων, κάνετε τουλάχιστον μία τροποποίηση στο votes.csv
αρχείο.
- Ανοίξτε το αρχείο στο εργαλείο επεξεργασίας κειμένου ή υπολογιστικού φύλλου που προτιμάτε και διαγράψτε μόνο ένα κελί.
Στα παρακάτω στιγμιότυπα οθόνης, χρησιμοποιώ τον επεξεργαστή nano GNU στο Linux. Μπορείτε επίσης να χρησιμοποιήσετε ένα πρόγραμμα επεξεργασίας υπολογιστικών φύλλων για να διαγράψετε ένα κελί. Αυτό προκαλεί την αποτυχία του κανόνα "Έλεγχος όλων των στηλών για τιμές που λείπουν".
Το ακόλουθο στιγμιότυπο οθόνης δείχνει το αρχείο CSV πριν από την τροποποίηση.
Το ακόλουθο στιγμιότυπο οθόνης δείχνει το αλλαγμένο αρχείο CSV.
- Αποθηκεύστε το επεξεργασμένο
votes.csv
αρχείο και επιστρέψτε στη γραμμή εντολών ή στο τερματικό σας. - Χρησιμοποιήστε το AWS CLI για να ανεβάσετε το αρχείο στον κάδο S3 για άλλη μια φορά. Χρησιμοποιείτε την ίδια εντολή με πριν:
- Στην κονσόλα Step Functions, μεταβείτε στην τελευταία κατάσταση λειτουργίας του μηχανήματος για να την παρακολουθήσετε.
Η επικύρωση ποιότητας δεδομένων αποτυγχάνει, ενεργοποιώντας μια ειδοποίηση ηλεκτρονικού ταχυδρομείου SNS και την αποτυχία της συνολικής λειτουργίας του μηχανήματος κατάστασης.
Η ακόλουθη εικόνα δείχνει τη ροή εργασίας του μηχανήματος κατάστασης που απέτυχε.
Το ακόλουθο στιγμιότυπο οθόνης δείχνει ένα παράδειγμα του email SNS.
- Μπορείτε να διερευνήσετε την αποτυχία κανόνα στην κονσόλα DataBrew επιλέγοντας το
AWSGlueDataBrewProfileResults
τιμή στις εξόδους της στοίβας CloudFormation.
εκκαθάριση
Για να αποφύγετε μελλοντικές χρεώσεις, διαγράψτε τους πόρους. Στην κονσόλα AWS CloudFormation, διαγράψτε τη στοίβα με το όνομα AWSBigDataBlogDataBrewDQSample
.
Συμπέρασμα
Σε αυτήν την ανάρτηση, μάθατε πώς να δημιουργείτε αυτοματοποιημένες αγωγούς επικύρωσης ποιότητας δεδομένων βάσει συμβάντων. Με το DataBrew, μπορείτε να ορίσετε κανόνες ποιότητας δεδομένων, όρια και σύνολα κανόνων για την επιχείρησή σας και τις τεχνικές απαιτήσεις. Οι Step Functions, το EventBridge και το Amazon SNS σάς επιτρέπουν να δημιουργείτε πολύπλοκους αγωγούς με προσαρμόσιμο χειρισμό σφαλμάτων και ειδοποιήσεις προσαρμοσμένες στις ανάγκες σας.
Μπορείτε να μάθετε περισσότερα σχετικά με αυτήν τη λύση και τον πηγαίο κώδικα μεταβαίνοντας στο Αποθετήριο GitHub. Για να μάθετε περισσότερα σχετικά με τους κανόνες ποιότητας δεδομένων DataBrew, επισκεφτείτε το Το AWS Glue DataBrew επιτρέπει πλέον στους πελάτες να δημιουργούν κανόνες ποιότητας δεδομένων για να καθορίσουν και να επικυρώσουν τις επιχειρηματικές τους απαιτήσεις ή ανατρέξτε σε Επικύρωση ποιότητας δεδομένων στο AWS Glue DataBrew.
Σχετικά με τους Συγγραφείς
Laith Al-Saadoon είναι ένας κύριος αρχιτέκτονας πρωτοτύπων στην ομάδα της Envision Engineering. Κατασκευάζει πρωτότυπα και λύσεις χρησιμοποιώντας τεχνητή νοημοσύνη, μηχανική μάθηση, IoT και υπολογιστές αιχμής, αναλύσεις ροής, ρομποτική και χωρικούς υπολογιστές για την επίλυση προβλημάτων πελατών του πραγματικού κόσμου. Στον ελεύθερο χρόνο του, ο Laith απολαμβάνει υπαίθριες δραστηριότητες όπως φωτογραφία, πτήσεις με drone, πεζοπορία και paintball.
Γκόρντον Μπέρτζες είναι Ανώτερος Διευθυντής Προϊόντων με AWS Glue DataBrew. Είναι παθιασμένος με το να βοηθά τους πελάτες να ανακαλύψουν πληροφορίες από τα δεδομένα τους και εστιάζει στη δημιουργία εμπειριών χρηστών και στην πλούσια λειτουργικότητα για προϊόντα αναλυτικών στοιχείων. Εκτός δουλειάς, ο Γκόρντον απολαμβάνει το διάβασμα, τον καφέ και την κατασκευή υπολογιστών.
- '
- &
- 100
- 107
- 7
- Σχετικά
- Λογαριασμός
- δραστηριοτήτων
- διεύθυνση
- AI
- Όλα
- Amazon
- analytics
- Εφαρμογή
- αρχιτεκτονική
- Αυτοματοποιημένη
- AWS
- χτίζω
- Κτίριο
- επιχείρηση
- φορτία
- έλεγχοι
- Καθάρισμα
- κωδικός
- Καφές
- Στήλη
- συγκρότημα
- υπολογιστές
- χρήση υπολογιστή
- πρόξενος
- Πελάτες
- ημερομηνία
- την ποιότητα των δεδομένων
- ημέρα
- ανακαλύπτουν
- κηφήνας
- άκρη
- άκρη υπολογιστών
- συντάκτης
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- τελειώνει
- Μηχανική
- Περιβάλλον
- εκδηλώσεις
- παράδειγμα
- Δραστηριοτητες
- Αποτυχία
- γρηγορότερα
- Χαρακτηριστικό
- ταιριάζουν
- Πτήσεις
- Βρέθηκαν
- Δωρεάν
- λειτουργία
- λειτουργίες
- μελλοντικός
- Μεγαλώνοντας
- Χειρισμός
- υγειονομική περίθαλψη
- βοηθά
- πεζοπορία
- Πως
- Πώς να
- HTTPS
- προσδιορίσει
- εικόνα
- εφαρμογή
- ιδέες
- διερευνήσει
- IoT
- θέματα
- IT
- Δουλειά
- Κλειδί
- large
- αργότερο
- ΜΑΘΑΊΝΩ
- μάθει
- μάθηση
- γραμμή
- LINK
- linux
- τοποθεσία
- μάθηση μηχανής
- Κατασκευαστής
- ML
- περισσότερο
- nano
- που απαιτούνται
- κοινοποίηση
- Επιλογές
- τάξη
- ΑΛΛΑ
- Φύση
- φωτογραφία
- Κύριος
- Προϊόν
- Προϊόντα
- Προφίλ ⬇️
- προτυποποίηση
- προμηθευτής
- ποιότητα
- Ανάγνωση
- μείωση
- αντικαθιστώ
- απαιτήσεις
- Υποστηρικτικό υλικό
- απάντησης
- Αποτελέσματα
- Επιστροφές
- ανασκόπηση
- ρομποτική
- κανόνες
- τρέξιμο
- Κλίμακα
- Χωρίς διακομιστή
- Υπηρεσίες
- σειρά
- παρόμοιες
- Απλούς
- So
- Λύσεις
- SOLVE
- χωρική
- χωρική υπολογιστική
- ειδικά
- Υπολογιστικό φύλλο
- Κατάσταση
- στατιστική
- Κατάσταση
- χώρος στο δίσκο
- ροής
- συνδρομή
- επιτυχία
- Τεχνικός
- τερματικό
- δοκιμή
- Η Πηγη
- Μέσω
- ώρα
- εργαλείο
- Μεταμόρφωση
- μετασχηματίζοντας
- φροντιστήριο
- αξία
- Δες
- Εργασία
- ροής εργασίας