Κόλλα AWS είναι μια υπηρεσία ενοποίησης δεδομένων χωρίς διακομιστή που διευκολύνει την ανακάλυψη, προετοιμασία και συνδυασμό δεδομένων για αναλυτικά στοιχεία, μηχανική εκμάθηση (ML) και ανάπτυξη εφαρμογών. Μπορείτε να χρησιμοποιήσετε το AWS Glue για να δημιουργήσετε, να εκτελέσετε και να παρακολουθήσετε την ενοποίηση δεδομένων και τις διοχετεύσεις ETL (εξαγωγή, μετασχηματισμός και φόρτωση) και να καταλογίσετε τα στοιχεία σας σε πολλαπλές αποθήκες δεδομένων.
Εκατοντάδες χιλιάδες πελάτες χρησιμοποιούν λίμνες δεδομένων για ανάλυση και μηχανική μάθηση για να λαμβάνουν επιχειρηματικές αποφάσεις που βασίζονται σε δεδομένα. Οι καταναλωτές δεδομένων χάνουν την εμπιστοσύνη τους στα δεδομένα εάν δεν είναι ακριβή και πρόσφατα, καθιστώντας την ποιότητα των δεδομένων απαραίτητη για τη λήψη βέλτιστων και σωστών αποφάσεων.
Η αξιολόγηση της ακρίβειας και της φρεσκάδας των δεδομένων είναι μια κοινή εργασία για τους μηχανικούς. Επί του παρόντος, υπάρχουν διάφορα διαθέσιμα εργαλεία για την αξιολόγηση της ποιότητας των δεδομένων. Ωστόσο, αυτά τα εργαλεία απαιτούν συχνά χειροκίνητες διαδικασίες ανακάλυψης δεδομένων και εξειδίκευση στη μηχανική και κωδικοποίηση δεδομένων.
Είμαστε στην ευχάριστη θέση να ανακοινώσουμε τη δημόσια προεπισκόπηση της κυκλοφορίας του AWS Glue Data Quality. Μπορείτε να αποκτήσετε πρόσβαση σε αυτήν τη λειτουργία σήμερα χωρίς να ζητήσετε πρόσθετη πρόσβαση στο διαθέσιμες Περιφέρειες. Το AWS Glue Data Quality είναι μια νέα δυνατότητα προεπισκόπησης του AWS Glue που μετρά και παρακολουθεί την ποιότητα δεδομένων των λιμνών δεδομένων που βασίζονται στο Amazon S3 και σε εργασίες AWS Glue ETL. Δεν απαιτεί καμία εξειδίκευση στη μηχανική δεδομένων ή την κωδικοποίηση. Απλοποιεί την εμπειρία σας από την παρακολούθηση και την αξιολόγηση της ποιότητας των δεδομένων σας.
Αυτό είναι το Μέρος 1 μιας σειράς αναρτήσεων τεσσάρων μερών που εξηγεί πώς λειτουργεί η ποιότητα δεδομένων κόλλας AWS. Δείτε τις επόμενες αναρτήσεις της σειράς:
Σε αυτήν την ανάρτηση, θα εξετάσουμε την απλότητα χρήσης της δυνατότητας ποιότητας δεδομένων κόλλας AWS από:
- Έναρξη προτάσεων ποιότητας δεδομένων και εκτελέσεων στα δεδομένα σας στον Κατάλογο δεδομένων κόλλας AWS.
- Δημιουργία συναγερμού Amazon CloudWatch για λήψη ειδοποιήσεων όταν τα αποτελέσματα ποιότητας δεδομένων είναι κάτω από ένα συγκεκριμένο όριο.
- Αναλύοντας τα αποτελέσματα της εκτέλεσης AWS Glue Data Quality μέσω του Amazon Athena.
Ρυθμίστε πόρους με το AWS CloudFormation
Το παρεχόμενο σενάριο CloudFormation δημιουργεί τους ακόλουθους πόρους για εσάς:
- Ο ρόλος IAM που απαιτείται για την εκτέλεση του AWS Glue Data Quality
- Ένας κάδος Amazon Simple Storage Service (Amazon S3) για την αποθήκευση των δεδομένων NYC Taxi
- Ένας κάδος S3 για την αποθήκευση και την ανάλυση των αποτελεσμάτων των εκτελέσεων AWS Glue Data Quality
- Μια βάση δεδομένων και ένας πίνακας AWS Glue που δημιουργήθηκε από το σύνολο δεδομένων NYC Taxi
Βήματα:
- Ανοίξτε την κονσόλα AWS CloudFormation.
- Επιλέξτε Δημιουργία στοίβας και στη συνέχεια επιλέξτε Με νέους πόρους (στάνταρ).
- Για Πηγή προτύπου, επιλέξτε Ανεβάστε ένα αρχείο προτύπουκαι παρέχετε το παραπάνω συνημμένο αρχείο προτύπου. Στη συνέχεια επιλέξτε Επόμενο.
- Για Όνομα στοίβας, DataQuality Database, να Πίνακας Ποιότητας Δεδομένων, αφήστε ως προεπιλογή. Για DataQualityS3BucketName, πληκτρολογήστε το όνομα του κάδου S3 σας. Στη συνέχεια επιλέξτε Επόμενο.
- Στην τελική οθόνη, φροντίστε να αναγνωρίσετε ότι αυτή η στοίβα θα δημιουργήσει πόρους IAM για εσάς και επιλέξτε Υποβολη.
- Μόλις δημιουργηθεί με επιτυχία η στοίβα, μεταβείτε στον κάδο S3 που δημιουργήθηκε από τη στοίβα και ανεβάστε το yellow_tripdata_2022-01.παρκέ αρχείο.
Ξεκινήστε μια εκτέλεση AWS Glue Data Quality στα δεδομένα σας στον Κατάλογο δεδομένων κόλλας AWS
Σε αυτήν την πρώτη ενότητα, θα δημιουργήσουμε προτάσεις κανόνων ποιότητας δεδομένων από την υπηρεσία AWS Glue Data Quality. Χρησιμοποιώντας αυτές τις συστάσεις, στη συνέχεια θα εκτελέσουμε μια εργασία ποιότητας δεδομένων στο σύνολο δεδομένων μας για να λάβουμε μια ανάλυση των δεδομένων μας.
Για να ξεκινήσετε, ακολουθήστε τα παρακάτω βήματα:
- Ανοίξτε την κονσόλα AWS Glue.
- Επιλέξτε πίνακες υπό Κατάλογος δεδομένων.
- Επιλέξτε το Πίνακας Ποιότητας Δεδομένων πίνακας που δημιουργήθηκε μέσω της στοίβας CloudFormation.
- Επιλέξτε το Η ποιότητα των δεδομένων Tab.
- Επιλέξτε Προτείνετε σύνολο κανόνων.
- Στις Προτείνετε κανόνες ποιότητας δεδομένων σελίδα, ελέγξτε Αποθηκεύστε τους προτεινόμενους κανόνες ως σύνολο κανόνων. Αυτό θα μας επιτρέψει να αποθηκεύσουμε αυτόματα τους προτεινόμενους κανόνες σε ένα σύνολο κανόνων, για χρήση στα επόμενα βήματα.
- Για Ρόλος IAM, επιλέξτε τον ρόλο IAM που δημιουργήθηκε από τη στοίβα CloudFormation.
- Για Πρόσθετες διαμορφώσεις - προαιρετικά, αφήστε τον προεπιλεγμένο αριθμό εργαζομένων και το χρονικό όριο.
- Επιλέξτε Προτείνετε σύνολο κανόνων. Αυτό θα ξεκινήσει μια εκτέλεση πρότασης ποιότητας δεδομένων, με τον δεδομένο αριθμό εργαζομένων.
- Περιμένετε να ολοκληρωθεί το σύνολο κανόνων.
- Μόλις ολοκληρωθεί, πλοηγηθείτε πίσω στο Σύνολο κανόνων αυτί. Θα πρέπει να δείτε μια επιτυχημένη εκτέλεση πρότασης και να δημιουργήσετε ένα σύνολο κανόνων.
Κατανοήστε τις προτάσεις ποιότητας δεδομένων κόλλας AWS
Οι προτάσεις AWS Glue Data Quality είναι προτάσεις που δημιουργούνται από την υπηρεσία AWS Glue Data Quality και βασίζονται στο σχήμα των δεδομένων σας. Αυτές οι προτάσεις λαμβάνουν αυτόματα υπόψη πτυχές όπως ο αριθμός γραμμών, ο μέσος όρος, η τυπική απόκλιση κ.λπ. των δεδομένων σας και δημιουργούν ένα σύνολο κανόνων, για να τους χρησιμοποιήσετε ως σημείο εκκίνησης.
Το σύνολο δεδομένων που χρησιμοποιήθηκε εδώ ήταν το σύνολο δεδομένων NYC Taxi. Με βάση αυτό, τις στήλες σε αυτό το σύνολο δεδομένων και τις τιμές αυτών των στηλών, το AWS Glue Data Quality συνιστά ένα σύνολο κανόνων. Συνολικά, η υπηρεσία συστάσεων έλαβε αυτόματα υπόψη όλες τις στήλες του συνόλου δεδομένων και συνέστησε 55 κανόνες.
Μερικοί από αυτούς τους κανόνες είναι:
- "Αριθμός σειρών μεταξύ <> και <> " → Αναμένετε έναν αριθμό σειρών με βάση τα δεδομένα που είδε
- "ColumnValues "VendorID" στο [ ] → Αναμένετε ότι η στήλη "VendorID" θα βρίσκεται εντός ενός συγκεκριμένου συνόλου τιμών
- IsComplete "VendorID" → Αναμένετε το "VendorID" να είναι μια μη μηδενική τιμή
Πώς μπορώ να χρησιμοποιήσω τους προτεινόμενους κανόνες ποιότητας δεδομένων κόλλας AWS;
- Από το Σύνολο κανόνων ενότητα, θα πρέπει να δείτε το σύνολο κανόνων που δημιουργήσατε. Επιλέξτε το σύνολο κανόνων που δημιουργήθηκε και επιλέξτε Αξιολογήστε το σύνολο κανόνων.
- Εάν δεν επιλέξατε το πλαίσιο για να Αποθηκεύστε τους προτεινόμενους κανόνες ως σύνολο κανόνων όταν εκτελέσατε την πρόταση, μπορείτε ακόμα να κάνετε κλικ στην εκτέλεση της εργασίας σύστασης και να αντιγράψετε τους κανόνες για να δημιουργήσετε ένα νέο σύνολο κανόνων
- Για Ενέργειες ποιότητας δεδομένων υπό Ιδιότητες ποιότητας δεδομένων, Επιλέξτε Δημοσιεύστε μετρήσεις στο Amazon CloudWatch. Εάν αυτό το πλαίσιο δεν είναι επιλεγμένο, η εκτέλεση ποιότητας δεδομένων δεν θα δημοσιεύει μετρήσεις στο Amazon CloudWatch.
- Για IAM ρόλο, Επιλέξτε το GlueDataQualityBlogRole που δημιουργήθηκε στη στοίβα AWS CloudFormation.
- Για Ζητούμενος αριθμός εργαζομένων υπό Προηγμένες ιδιότητες, αφήστε ως προεπιλογή.
- Για Τοποθεσία αποτελεσμάτων ποιότητας δεδομένων, επιλέξτε την τιμή του GlueDataQualityResultsS3Bucket τοποθεσία που δημιουργήθηκε μέσω της στοίβας AWS CloudFormation
- Επιλέξτε Αξιολογήστε το σύνολο κανόνων.
- Μόλις ξεκινήσει η εκτέλεση, μπορείτε να δείτε την κατάσταση της εκτέλεσης στο Αποτελέσματα ποιότητας δεδομένων Tab.
- Αφού η εκτέλεση φτάσει σε ένα επιτυχημένο στάδιο, επιλέξτε την ολοκληρωμένη εκτέλεση εργασίας ποιότητας δεδομένων και προβάλετε τα αποτελέσματα ποιότητας δεδομένων που εμφανίζονται Εκτέλεση αποτελεσμάτων.
Η υπηρεσία συστάσεων μας πρότεινε να επιβάλλουμε 55 κανόνες, με βάση τις τιμές των στηλών και τα δεδομένα στο σύνολο δεδομένων NYC Taxi. Στη συνέχεια, μετατρέψαμε τη συλλογή των 55 κανόνων σε ένα σύνολο κανόνων. Στη συνέχεια, εκτελέσαμε μια εργασία αξιολόγησης ποιότητας δεδομένων που εκτελέστηκε χρησιμοποιώντας το σύνολο κανόνων μας σε σχέση με το σύνολο δεδομένων μας. Στα παραπάνω αποτελέσματά μας, βλέπουμε την κατάσταση του καθενός μέσα στο RuleSet.
Μπορείτε επίσης να χρησιμοποιήσετε το AWS Glue Data Quality API για να πραγματοποιήσετε αυτά τα βήματα.
Λάβετε ειδοποιήσεις Amazon SNS για τις αποτυχημένες εκτελούμενες ποιοτικά δεδομένα μέσω των συναγερμών Amazon CloudWatch
Κάθε αξιολόγηση ποιότητας δεδομένων κόλλας AWS που εκτελείται από τον Κατάλογο Δεδομένων, εκπέμπει ένα ζευγάρι μετρήσεων με το όνομα κόλλα.δεδομένα.ποιότητα.κανόνες.πέρασε (υποδεικνύει έναν αριθμό κανόνων που πέρασαν) και glue.data.quality.rules.failed (υποδεικνύει τον αριθμό των αποτυχημένων κανόνων) ανά εκτέλεση ποιότητας δεδομένων. Αυτή η εκπεμπόμενη μέτρηση μπορεί να χρησιμοποιηθεί για τη δημιουργία συναγερμών για την ειδοποίηση των χρηστών εάν μια δεδομένη εκτέλεση ποιότητας δεδομένων πέσει κάτω από ένα όριο.
Για να ξεκινήσετε με τη ρύθμιση ενός συναγερμού που θα στέλνει ένα email μέσω μιας ειδοποίησης Amazon SNS, ακολουθήστε τα παρακάτω βήματα:
- Ανοίξτε την κονσόλα Amazon CloudWatch.
- Επιλέξτε Όλες οι μετρήσεις υπό Metrics. Θα δείτε έναν επιπλέον χώρο ονομάτων κάτω Προσαρμοσμένοι χώροι ονομάτων με τίτλο Ποιότητα δεδομένων κόλλας.
Σημείωση: Όταν ξεκινάτε μια εκτέλεση AWS Glue Data Quality, βεβαιωθείτε ότι Δημοσιεύστε μετρήσεις στο Amazon CloudWatch Το πλαίσιο ελέγχου είναι ενεργοποιημένο, όπως φαίνεται παρακάτω. Διαφορετικά, οι μετρήσεις για τη συγκεκριμένη εκτέλεση δεν θα δημοσιεύονται στο Amazon CloudWatch.
- Σύμφωνα με το Ποιότητα δεδομένων κόλλας namespace, θα πρέπει να μπορείτε να βλέπετε μετρήσεις που εκπέμπονται ανά πίνακα, ανά σύνολο κανόνων. Για τους σκοπούς του ιστολογίου μας, θα χρησιμοποιήσουμε το glue.data.quality.rules.failed κανόνας και συναγερμός, εάν αυτή η τιμή υπερβαίνει το 1 (που υποδεικνύει ότι, εάν δούμε έναν αριθμό αποτυχημένων αξιολογήσεων κανόνων μεγαλύτερο από 1, θα θέλαμε να ειδοποιηθούμε).
- Για να δημιουργήσετε το συναγερμό, επιλέξτε Όλοι οι συναγερμοί κάτω από Συναγερμούς.
- Επιλέξτε Δημιουργία συναγερμού.
- Επιλέξτε Επιλέξτε μέτρηση.
- Επιλέξτε το glue.data.quality.rules.failed μέτρηση που αντιστοιχεί στον πίνακα που δημιουργήσατε και, στη συνέχεια, επιλέξτε Επιλέξτε μέτρηση.
- Σύμφωνα με το Προσδιορίστε τη μέτρηση και τις συνθήκες καρτέλα, κάτω από το Metrics Ενότητα:
- Για Στατιστικώς, Επιλέξτε Άθροισμα.
- Για Περίοδος, Επιλέξτε 1 λεπτά.
- Σύμφωνα με το Όροι Ενότητα:
- Για Τύπος κατωφλίου, επιλέξτε Στατικός.
- Για Κάθε φορά που το glue.data.quality.rules.failed είναι…, Επιλέξτε Μεγαλύτερο/Ίσο.
- Για από…, εισάγετε το 1 ως τιμή κατωφλίου.
- Αναπτύξτε το Πρόσθετες διαμορφώσεις αναπτυσσόμενο μενού και επιλέξτε Αντιμετωπίστε τα δεδομένα που λείπουν ως καλά
Αυτές οι επιλογές υπονοούν ότι εάν το glue.data.quality.rules.failed Η μέτρηση εκπέμπει μια τιμή μεγαλύτερη ή ίση με 1, θα ενεργοποιήσουμε συναγερμό. Ωστόσο, εάν δεν υπάρχουν δεδομένα, θα τα αντιμετωπίσουμε ως αποδεκτά.
- Επιλέξτε Επόμενο.
- On Διαμόρφωση ενεργειών:
- Για την Σκανδάλη κατάστασης συναγερμού , επιλέξτε Σε συναγερμό .
- Για Στείλτε μια ειδοποίηση στο ακόλουθο θέμα SNS, επιλέξτε Δημιουργήστε ένα νέο θέμα για να στείλετε μια ειδοποίηση μέσω ενός νέου θέματος SNS.
- Για Αποστολή μηνυμάτων ηλεκτρονικού ταχυδρομείου στα τελικά σημεία που θα λάβουν την ειδοποίηση…, Εισάγετε την διεύθυνση ηλεκρονικού ταχυδρομείου σας. Επιλέγω Επόμενο.
- Για Όνομα συναγερμού, πληκτρολογήστε myFirstDQAlarm και μετά επιλέξτε Επόμενο.
- Τέλος, θα πρέπει να δείτε μια περίληψη όλων των επιλογών στο Προεπισκόπηση και δημιουργία οθόνη. Επιλέγω Δημιουργία συναγερμού στον πάτο.
- Θα πρέπει τώρα να μπορείτε να δείτε τη δημιουργία συναγερμού από τον πίνακα εργαλείων συναγερμών του Amazon CloudWatch.
Προκειμένου να δείξουμε συναγερμούς ποιότητας δεδομένων κόλλας AWS, θα εξετάσουμε ένα πραγματικό σενάριο όπου έχουμε καταστραφεί δεδομένα κατά την απορρόφηση και πώς θα μπορούσαμε να χρησιμοποιήσουμε την υπηρεσία ποιότητας δεδομένων κόλλας AWS για να ειδοποιηθούμε για αυτό, χρησιμοποιώντας τον συναγερμό που που δημιουργήθηκε στα προηγούμενα βήματα. Για το σκοπό αυτό, θα χρησιμοποιήσουμε το παρεχόμενο αρχείο κακοφόρμα_κίτρινο_ταξί.παρκέ που περιέχει δεδομένα που έχουν τροποποιηθεί σκόπιμα.
- Μεταβείτε στη θέση S3 DataQualityS3BucketName αναφέρεται στο πρότυπο CloudFormation που παρέχεται στην αρχή της ανάρτησης ιστολογίου.
- Ανεβάστε το malformed_yellow_tripdata.παρκέ αρχείο σε αυτήν την τοποθεσία. Αυτό θα μας βοηθήσει να προσομοιώσουμε μια ροή όπου έχουμε ένα αρχείο με κακή ποιότητα δεδομένων που εισέρχεται στις λίμνες δεδομένων μας μέσω των διαδικασιών ETL.
- Μεταβείτε στην κονσόλα AWS Glue Data Catalog, επιλέξτε το demo_nyc_taxi_data_input που δημιουργήθηκε μέσω του παρεχόμενου προτύπου AWS CloudFormation και, στη συνέχεια, μεταβείτε στο Η ποιότητα των δεδομένων Tab.
- Επιλέξτε το RuleSet που είχαμε δημιουργήσει στην πρώτη ενότητα. Στη συνέχεια επιλέξτε Αξιολογήστε το σύνολο κανόνων.
- Από το Οθόνη αξιολόγησης ποιότητας δεδομένων:
- Επιλέξτε το πλαίσιο για να Δημοσιεύστε μετρήσεις στο Amazon CloudWatch. Αυτό το πλαίσιο ελέγχου είναι απαραίτητο για να διασφαλιστεί ότι οι μετρήσεις αποτυχίας εκπέμπονται στο Amazon CloudWatch.
- Επιλέξτε τον ρόλο IAM που δημιουργήθηκε μέσω του προτύπου AWS CloudFormation.
- Προαιρετικά, επιλέξτε μια τοποθεσία S3 για να δημοσιεύσετε τα αποτελέσματα ποιότητας δεδομένων κόλλας AWS.
- Αγορά Αξιολογήστε το σύνολο κανόνων.
- Πλοηγηθείτε με το Αποτελέσματα ποιότητας δεδομένων αυτί. Θα πρέπει τώρα να δείτε δύο εκτελέσεις, μία από τα προηγούμενα βήματα αυτού του ιστολογίου και μία που ενεργοποιήσαμε αυτήν τη στιγμή. Περιμένετε να ολοκληρωθεί η τρέχουσα εκτέλεση.
- Όπως βλέπετε, έχουμε ένα αποτυχημένο αποτέλεσμα εκτέλεσης AWS Glue Data Quality, με μόνο 52 από τους αρχικούς 55 κανόνες μας να περάσουν. Αυτές οι αστοχίες αποδίδονται στο νέο αρχείο που ανεβάσαμε στο S3.
- Μεταβείτε στην κονσόλα Amazon CloudWatch και επιλέξτε το ξυπνητήρι που δημιουργήσαμε στην αρχή αυτής της ενότητας.
- Όπως μπορείτε να δείτε, ρυθμίσαμε τον συναγερμό να ενεργοποιείται κάθε φορά που το glue.data.quality.rules.failed Η μέτρηση ξεπερνά το όριο του 1. Μετά την παραπάνω εκτέλεση του AWS Glue Data Quality, βλέπουμε να αποτυγχάνουν 3 κανόνες, γεγονός που πυροδότησε τον συναγερμό. Επιπλέον, θα έπρεπε επίσης να έχετε λάβει ένα email που περιγράφει λεπτομερώς την ενεργοποίηση του συναγερμού.
Έτσι, επιδείξαμε ένα παράδειγμα όπου τα εισερχόμενα δεδομένα με κακή μορφή που εισέρχονται στις λίμνες δεδομένων μας μπορούν να αναγνωριστούν μέσω των κανόνων ποιότητας δεδομένων κόλλας AWS και μπορούν να δημιουργηθούν μηχανισμοί ειδοποίησης για την ειδοποίηση κατάλληλων προσώπων.
Αναλύστε τα αποτελέσματα της εκτέλεσης AWS Glue Data Quality μέσω του Amazon Athena
Σε σενάρια όπου έχετε πολλαπλά αποτελέσματα εκτέλεσης AWS Glue Data Quality σε ένα σύνολο δεδομένων, για μια χρονική περίοδο, ίσως θέλετε να παρακολουθείτε τις τάσεις της ποιότητας του συνόλου δεδομένων για μια χρονική περίοδο. Για να το επιτύχουμε αυτό, μπορούμε να εξάγουμε τα αποτελέσματα εκτέλεσης AWS Glue Data Quality στο S3 και να χρησιμοποιήσουμε το Amazon Athena για να εκτελέσουμε αναλυτικά ερωτήματα έναντι της εξαγόμενης εκτέλεσης. Τα αποτελέσματα μπορούν στη συνέχεια να χρησιμοποιηθούν περαιτέρω στο Amazon QuickSight για τη δημιουργία πινάκων εργαλείων που να έχουν μια γραφική αναπαράσταση των τάσεων ποιότητας των δεδομένων σας
Στο τρίτο μέρος αυτής της ανάρτησης, θα δούμε τα βήματα που απαιτούνται για την έναρξη της παρακολούθησης δεδομένων σχετικά με την ποιότητα του συνόλου δεδομένων σας:
- Για τις εκτελέσεις ποιότητας δεδομένων που ρυθμίσαμε στις προηγούμενες ενότητες, ορίσαμε το Τοποθεσία αποτελεσμάτων ποιότητας δεδομένων παράμετρο στη θέση του κάδου που καθορίζεται από τη στοίβα AWS CloudFormation.
- Μετά από κάθε επιτυχημένη εκτέλεση, θα πρέπει να βλέπετε ένα μόνο αρχείο JSONL να εξάγεται στην επιλεγμένη θέση S3, που αντιστοιχεί στη συγκεκριμένη εκτέλεση.
- Ανοίξτε την κονσόλα Amazon Athena.
- Στο πρόγραμμα επεξεργασίας ερωτημάτων, εκτελέστε την ακόλουθη δήλωση CREATE TABLE (αντικαταστήστε το με σχετική αξία, και τμήμα με το
GlueDataQualityResultsS3Bucket
τιμή από το παρεχόμενο πρότυπο AWS CloudFormation): - Μόλις δημιουργηθεί ο παραπάνω πίνακας, θα πρέπει να μπορείτε να εκτελέσετε ερωτήματα για να αναλύσετε τα αποτελέσματα ποιότητας των δεδομένων σας.
Για παράδειγμα, λάβετε υπόψη το ακόλουθο ερώτημα που δείχνει ότι η αποτυχία AWS Glue Data Quality εκτελείται στον πίνακά μου demo_nyc_taxi_data_input
μέσα σε ένα χρονικό παράθυρο:
Η έξοδος του παραπάνω ερωτήματος μου δείχνει λεπτομέρειες σχετικά με όλες τις εκτελέσεις με "outcome" = "Απέτυχε" που έτρεξαν στον πίνακα δεδομένων μου NYC Taxi ( "tablename" = 'demo_nyc_taxi_data_input' ). Η έξοδος μου δίνει επίσης πληροφορίες σχετικά με την αιτία αποτυχίας ( failurereason
) και τις τιμές με τις οποίες αξιολογήθηκε ( evaluatedmetrics
).
Όπως μπορείτε να δείτε, είμαστε σε θέση να λάβουμε λεπτομερείς πληροφορίες σχετικά με τις εκτελέσεις AWS Glue Data Quality, μέσω των αποτελεσμάτων εκτέλεσης που μεταφορτώθηκαν στο S3, να εκτελέσουμε πιο λεπτομερή ανάλυση και να δημιουργήσουμε πίνακες εργαλείων πάνω από τα δεδομένα.
εκκαθάριση
- Μεταβείτε στην κονσόλα Amazon Athena και διαγράψτε τον πίνακα που δημιουργήθηκε για ανάλυση ποιότητας δεδομένων.
- Μεταβείτε στην κονσόλα Amazon CloudWatch και διαγράψτε τους συναγερμούς που δημιουργήθηκαν.
- Εάν αναπτύξατε το δείγμα στοίβας CloudFormation, διαγράψτε τη στοίβα CloudFormation μέσω της κονσόλας AWS CloudFormation. Θα χρειαστεί να αδειάστε τον κάδο S3 πριν διαγράψετε τον κάδο.
- Εάν έχετε ενεργοποιήσει τις εκτελέσεις AWS Glue Data Quality για έξοδο στο S3, αδειάστε και αυτούς τους κάδους.
Συμπέρασμα
Σε αυτήν την ανάρτηση, μιλήσαμε για την ευκολία και την ταχύτητα ενσωμάτωσης κανόνων ποιότητας δεδομένων χρησιμοποιώντας τη δυνατότητα AWS Glue Data Quality, στους πίνακες σας AWS Glue Data Catalog. Μιλήσαμε επίσης για τον τρόπο εκτέλεσης προτάσεων και αξιολόγησης της ποιότητας των δεδομένων σε σχέση με τους πίνακες σας. Στη συνέχεια συζητήσαμε την ανάλυση των αποτελεσμάτων ποιότητας δεδομένων μέσω του Amazon Athena και τη διαδικασία ρύθμισης συναγερμών μέσω του Amazon CloudWatch προκειμένου να ειδοποιηθούν οι χρήστες για αποτυχημένη ποιότητα δεδομένων.
Για να βουτήξετε στα API ποιότητας δεδομένων AWS Glue, ρίξτε μια ματιά στο Τεκμηρίωση API ποιότητας δεδομένων AWS Glue
Για να μάθετε περισσότερα σχετικά με την ποιότητα δεδομένων κόλλας AWS, ανατρέξτε στο Οδηγός προγραμματιστή AWS Glue Data Quality
Σχετικά με τους συγγραφείς
Ανικετ Τζιντιγκουντάρ είναι αρχιτέκτονας Big Data στην ομάδα AWS Glue.
Τζόζεφ Μπάρλαν είναι Μηχανικός Frontend στην AWS Glue. Έχει πάνω από 5 χρόνια εμπειρία βοηθώντας ομάδες να δημιουργήσουν επαναχρησιμοποιήσιμα στοιχεία διεπαφής χρήστη και είναι παθιασμένος με τα συστήματα σχεδιασμού frontend. Στον ελεύθερο χρόνο του, του αρέσει να σχεδιάζει με μολύβι και να παρακολουθεί υπερβολικά τηλεοπτικές εκπομπές.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/
- 000
- 1
- 10
- 100
- 11
- 420
- a
- Ικανός
- Σχετικά
- πάνω από
- αποδεκτό
- πρόσβαση
- Λογαριασμός
- ακρίβεια
- ακριβής
- Κατορθώνω
- αναγνωρίζω
- απέναντι
- ενεργειών
- Πρόσθετος
- διεύθυνση
- προηγμένες
- Μετά το
- κατά
- τρομάζω
- Ειδοποίηση
- Όλα
- Amazon
- Αμαζόν Αθηνά
- Amazon QuickSight
- ανάλυση
- Αναλυτικός
- analytics
- αναλύσει
- αναλύοντας
- και
- Ανακοινώστε
- Apache
- api
- APIs
- Εφαρμογή
- Ανάπτυξη Εφαρμογών
- κατάλληλος
- πτυχές
- Ενεργητικό
- αυτομάτως
- διαθέσιμος
- AWS
- AWS CloudFormation
- Κόλλα AWS
- πίσω
- βασίζονται
- πριν
- Αρχή
- είναι
- παρακάτω
- μεταξύ
- Μεγάλος
- Big Data
- Blog
- Κάτω μέρος
- Κουτί
- χτίζω
- επιχείρηση
- κουβαλάω
- κατάλογος
- ορισμένες
- έλεγχος
- Επιλέξτε
- ταξινόμηση
- Κωδικοποίηση
- συλλογή
- Στήλη
- Στήλες
- συνδυασμός
- ερχομός
- Κοινός
- πλήρης
- Ολοκληρώθηκε το
- εξαρτήματα
- Συνθήκες
- Εξετάστε
- εξέταση
- πρόξενος
- Καταναλωτές
- Περιέχει
- μετατρέπονται
- Αντίστοιχος
- κατεστραμμένο
- θα μπορούσε να
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- Ρεύμα
- Τη στιγμή
- Πελάτες
- ταμπλό
- ημερομηνία
- βασίζονται σε δεδομένα
- βάση δεδομένων
- αποφάσεις
- Προεπιλογή
- αποδεικνύουν
- κατέδειξε
- αναπτυχθεί
- Υπηρεσίες
- συστήματα σχεδιασμού
- λεπτομερής
- καθέκαστα
- Εργολάβος
- Ανάπτυξη
- απόκλιση
- ανακαλύπτουν
- ανακάλυψη
- συζήτηση
- σχέδιο
- κάθε
- συντάκτης
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- μηχανικός
- Μηχανική
- Μηχανικοί
- εξασφαλίζω
- εισάγετε
- ουσιώδης
- κ.λπ.
- Αιθέρας (ΕΤΗ)
- αξιολογήσει
- αξιολόγηση
- εκτίμηση
- αξιολογήσεις
- παράδειγμα
- αναμένω
- εμπειρία
- εξειδίκευση
- Εξηγήστε
- εξαγωγή
- εξωτερικός
- εκχύλισμα
- Απέτυχε
- Αποτυχία
- Falls
- Χαρακτηριστικό
- Αρχεία
- τελικός
- Φωτιά
- ψήσιμο
- Όνομα
- ροή
- ακολουθήστε
- Εξής
- μορφή
- από
- frontend
- περαιτέρω
- παράγουν
- παράγεται
- παίρνω
- να πάρει
- δεδομένου
- δίνει
- Go
- πηγαίνει
- μετάβαση
- μεγαλύτερη
- βοήθεια
- βοήθεια
- εδώ
- Κυψέλη
- Πως
- Πώς να
- Ωστόσο
- HTML
- HTTPS
- προσδιορίζονται
- in
- Εισερχόμενος
- ενσωματώνοντας
- πληροφορίες
- ολοκλήρωση
- IT
- Θέσεις εργασίας
- json
- ξεκινήσει
- ΜΑΘΑΊΝΩ
- μάθηση
- Άδεια
- φορτίο
- τοποθεσία
- ματιά
- χάνουν
- μηχανή
- μάθηση μηχανής
- κάνω
- ΚΑΝΕΙ
- Κατασκευή
- Ταχύτητες
- μέτρα
- μετρικός
- Metrics
- ενδέχεται να
- Λείπει
- ML
- Παρακολούθηση
- παρακολούθηση
- οθόνες
- περισσότερο
- πολλαπλούς
- όνομα
- Πλοηγηθείτε
- Ανάγκη
- Νέα
- επόμενη
- κοινοποίηση
- κοινοποιήσεις
- αριθμός
- NYC
- ONE
- βέλτιστη
- τάξη
- πρωτότυπο
- αλλιώς
- παράμετρος
- μέρος
- Ειδικότερα
- πέρασε
- Πέρασμα
- παθιασμένος
- εκτελέσει
- περίοδος
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- ευχαριστημένος
- Σημείο
- φτωχός
- Θέση
- Δημοσιεύσεις
- Προετοιμάστε
- Προβολή
- προηγούμενος
- διαδικασια μας
- Διεργασίες
- παρέχουν
- παρέχεται
- δημόσιο
- δημοσιεύει
- δημοσιεύθηκε
- σκοπός
- ποιότητα
- Φτάνει
- πραγματικό κόσμο
- λόγος
- λαμβάνω
- πρόσφατος
- Σύσταση
- συστάσεις
- συνιστάται
- συνιστά
- επισκευή
- αντικαθιστώ
- αντιπροσώπευση
- απαιτούν
- απαιτείται
- Υποστηρικτικό υλικό
- αποτέλεσμα
- Αποτελέσματα
- επαναχρησιμοποιήσιμη
- Ρόλος
- ΣΕΙΡΑ
- Άρθρο
- κανόνες
- τρέξιμο
- Αποθήκευση
- σενάρια
- Οθόνη
- Τμήμα
- τμήματα
- επιλέγονται
- Σειρές
- Χωρίς διακομιστή
- υπηρεσία
- σειρά
- τον καθορισμό
- Shape
- θα πρέπει να
- παρουσιάζεται
- Δείχνει
- Απλούς
- απλότητα
- ενιαίας
- συγκεκριμένες
- καθορίζεται
- ταχύτητα
- σωρός
- Στάδιο
- πρότυπο
- Εκκίνηση
- ξεκίνησε
- Ξεκινήστε
- Κατάσταση
- Δήλωση
- Κατάσταση
- Βήματα
- Ακόμη
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- καταστήματα
- μεταγενέστερος
- επιτυχής
- Επιτυχώς
- ΠΕΡΙΛΗΨΗ
- παρέχεται
- συστήματα
- τραπέζι
- Πάρτε
- Έργο
- ομάδες
- πρότυπο
- Η
- Τρίτος
- χιλιάδες
- κατώφλι
- Μέσω
- ώρα
- timestamp
- προς την
- σήμερα
- εργαλεία
- κορυφή
- τοπικός
- Σύνολο
- τροχιά
- Παρακολούθηση
- Μεταμορφώστε
- θεραπεία
- Τάσεις
- ενεργοποιούν
- ενεργοποιήθηκε
- Εμπιστευθείτε
- tv
- ui
- υπό
- Φορτώθηκε
- us
- χρήση
- Χρήστες
- χρησιμοποιώ
- αξία
- Αξίες
- διάφορα
- μέσω
- Δες
- περιμένετε
- παρακολουθείτε
- Ποιό
- θα
- εντός
- χωρίς
- εργαζομένων
- λειτουργεί
- θα
- χρόνια
- Σας
- zephyrnet