Σήμερα, εκατοντάδες χιλιάδες πελάτες χρησιμοποιούν λίμνες δεδομένων για ανάλυση και μηχανική μάθηση. Ωστόσο, οι μηχανικοί δεδομένων πρέπει να καθαρίσουν και να προετοιμάσουν αυτά τα δεδομένα προτού μπορέσουν να χρησιμοποιηθούν. Τα υποκείμενα δεδομένα πρέπει να είναι ακριβή και πρόσφατα ώστε ο πελάτης να λαμβάνει σίγουρες επιχειρηματικές αποφάσεις. Διαφορετικά, οι καταναλωτές δεδομένων χάνουν την εμπιστοσύνη τους στα δεδομένα και λαμβάνουν μη βέλτιστες ή εσφαλμένες αποφάσεις. Είναι ένα κοινό καθήκον για τους μηχανικούς δεδομένων να αξιολογούν εάν τα δεδομένα είναι ακριβή και πρόσφατα ή όχι. Σήμερα υπάρχουν διάφορα εργαλεία ποιότητας δεδομένων. Ωστόσο, τα κοινά εργαλεία ποιότητας δεδομένων συνήθως απαιτούν μη αυτόματες διαδικασίες για την παρακολούθηση της ποιότητας των δεδομένων.
Το AWS Glue Data Quality είναι μια δυνατότητα προεπισκόπησης του Κόλλα AWS που μετρά και παρακολουθεί την ποιότητα των δεδομένων Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) λίμνες δεδομένων και εργασίες εξαγωγής, μετατροπής και φόρτωσης (ETL) κόλλας AWS. Αυτή είναι μια δυνατότητα ανοιχτής προεπισκόπησης, επομένως είναι ήδη ενεργοποιημένη στον λογαριασμό σας στο διαθέσιμες Περιφέρειες. Μπορείτε εύκολα να ορίσετε και να μετρήσετε τους ελέγχους ποιότητας δεδομένων στην κονσόλα AWS Glue Studio χωρίς να γράφετε κωδικούς. Απλοποιεί την εμπειρία σας στη διαχείριση της ποιότητας δεδομένων.
Αυτή η ανάρτηση είναι το Μέρος 2 μιας σειράς τεσσάρων αναρτήσεων για να εξηγήσει πώς λειτουργεί το AWS Glue Data Quality. Δείτε την προηγούμενη ανάρτηση αυτής της σειράς:
Σε αυτήν την ανάρτηση, δείχνουμε πώς να δημιουργήσετε μια εργασία κόλλας AWS που μετρά και παρακολουθεί την ποιότητα δεδομένων μιας διοχέτευσης δεδομένων. Δείχνουμε επίσης πώς να αναλάβετε δράση με βάση τα αποτελέσματα ποιότητας δεδομένων.
Επισκόπηση λύσεων
Ας εξετάσουμε ένα παράδειγμα περίπτωσης χρήσης κατά την οποία ένας μηχανικός δεδομένων πρέπει να δημιουργήσει έναν αγωγό δεδομένων για να απορροφήσει τα δεδομένα από μια ακατέργαστη ζώνη σε μια επιλεγμένη ζώνη σε μια λίμνη δεδομένων. Ως μηχανικός δεδομένων, μία από τις βασικές σας ευθύνες—μαζί με την εξαγωγή, τον μετασχηματισμό και τη φόρτωση δεδομένων—είναι η επικύρωση της ποιότητας των δεδομένων. Ο εκ των προτέρων εντοπισμός προβλημάτων ποιότητας δεδομένων σάς βοηθά να αποτρέψετε την τοποθέτηση κακών δεδομένων στην επιλεγμένη ζώνη και να αποφύγετε επίπονα περιστατικά καταστροφής δεδομένων.
Σε αυτήν την ανάρτηση, θα μάθετε πώς να ρυθμίζετε εύκολα ενσωματωμένο και έθιμο ελέγχει την επικύρωση δεδομένων στην εργασία σας AWS Glue για να αποτρέψει τα κακά δεδομένα να καταστρέψουν τα μεταγενέστερα δεδομένα υψηλής ποιότητας.
Το σύνολο δεδομένων που χρησιμοποιείται για αυτήν την ανάρτηση δημιουργείται συνθετικά. το ακόλουθο στιγμιότυπο οθόνης δείχνει ένα παράδειγμα των δεδομένων.
Ρυθμίστε πόρους με το AWS CloudFormation
Αυτή η ανάρτηση περιλαμβάνει ένα AWS CloudFormation πρότυπο για γρήγορη εγκατάσταση. Μπορείτε να το αναθεωρήσετε και να το προσαρμόσετε ανάλογα με τις ανάγκες σας.
Το πρότυπο CloudFormation δημιουργεί τους ακόλουθους πόρους:
- Κάδος υπηρεσίας απλής αποθήκευσης Amazon (Amazon S3) (
gluedataqualitystudio-*
). - Τα ακόλουθα προθέματα και αντικείμενα στον κάδο S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- Διαχείριση ταυτότητας και πρόσβασης AWS χρήστες, ρόλοι και πολιτικές (IAM). Ο ρόλος του IAM (
GlueDataQualityStudio-*
) έχει άδεια ανάγνωσης και εγγραφής από τον κάδο S3. - AWS Lambda συναρτήσεις και πολιτικές IAM που απαιτούνται από αυτές τις συναρτήσεις για τη δημιουργία και τη διαγραφή αυτής της στοίβας.
Για να δημιουργήσετε τους πόρους σας, ακολουθήστε τα παρακάτω βήματα:
- Συνδεθείτε στο Κονσόλα AWS CloudFormation στο
us-east-1
Περιοχή. - Επιλέξτε Εκκίνηση στοίβας:
- Αγορά Αναγνωρίζω ότι το AWS CloudFormation μπορεί να δημιουργήσει πόρους IAM.
- Επιλέξτε Δημιουργία στοίβας και περιμένετε να ολοκληρωθεί το βήμα δημιουργίας στοίβας.
Εφαρμόστε τη λύση
Για να ξεκινήσετε τη διαμόρφωση της λύσης σας, ολοκληρώστε τα παρακάτω βήματα:
- Στις Κονσόλα AWS Glue Studio, επιλέξτε Θέσεις εργασίας στο παράθυρο πλοήγησης.
- Αγορά Οπτική με έναν κενό καμβά Και επιλέξτε Δημιουργία.
- Επιλέξτε λεπτομέρειες δουλειά καρτέλα για να διαμορφώσετε την εργασία.
- Για Όνομα, εισαγω
GlueDataQualityStudio
. - Για Ρόλος IAM, επιλέξτε τον ρόλο ξεκινώντας από
GlueDataQualityStudio-*
. - Για Έκδοση κόλλας, επιλέξτε Κόλλα 3.0.
- Για Σελιδοδείκτης εργασίας, επιλέξτε Απενεργοποίηση. Αυτό σας επιτρέπει να εκτελέσετε αυτήν την εργασία πολλές φορές με το ίδιο σύνολο δεδομένων εισόδου.
- Για Αριθμός επαναλήψεων, εισαγω
0
. - Στο Προηγμένες ιδιότητες ενότητα, δώστε τον κάδο S3 που δημιουργήθηκε από το πρότυπο CloudFormation (αρχίζοντας με
gluedataqualitystudio-*
). - Επιλέξτε Αποθήκευση.
- Αφού αποθηκευτεί η εργασία, επιλέξτε το Οπτικό καρτέλα και στο Πηγή μενού, επιλέξτε Amazon S3.
- Στις Ιδιότητες πηγής δεδομένων - S3 καρτέλα, για Τύπος πηγής S3, Επιλέξτε S3 τοποθεσία.
- Επιλέξτε Αναζήτηση S3 και μεταβείτε στο πρόθεμα
/datalake/raw/customer/
στον κάδο S3 ξεκινώντας απόgluedataqualitystudio-*
. - Επιλέξτε Σχήμα συμπερασμάτων.
- Στις Ενέργειες μενού, επιλέξτε Αξιολογήστε την ποιότητα των δεδομένων.
- Επιλέξτε Αξιολογήστε την ποιότητα των δεδομένων κόμβος.
Στις Μεταμορφώστε καρτέλα, μπορείτε τώρα να ξεκινήσετε τη δημιουργία κανόνων ποιότητας δεδομένων. Ο πρώτος κανόνας που δημιουργείτε είναι να ελέγξετε εάνCustomer_ID
είναι μοναδικό και δεν είναι μηδενικό χρησιμοποιώντας τοisPrimaryKey
κανόνας. - Στις Τύποι κανόνων καρτέλα του Δόμηση κανόνων DQDL, ψάχνω για
isprimarykey
και επιλέξτε το σύμβολο συν. - Στις Schema καρτέλα του Δόμηση κανόνων DQDL, επιλέξτε το σύμβολο συν δίπλα
Customer_ID
. - Στο πρόγραμμα επεξεργασίας κανόνων, διαγράψτε
id
.
Ο επόμενος κανόνας που προσθέτουμε ελέγχει ότι τοFirst_Name
Η τιμή της στήλης είναι παρούσα για όλες τις σειρές. - Μπορείτε επίσης να εισαγάγετε τους κανόνες ποιότητας δεδομένων απευθείας στο πρόγραμμα επεξεργασίας κανόνων. Προσθέστε ένα κόμμα (,) και εισάγετε
IsComplete "First_Name",
μετά τον πρώτο κανόνα.
Στη συνέχεια, προσθέτετε έναν προσαρμοσμένο κανόνα για να επιβεβαιώσετε ότι δεν υπάρχει σειρά χωρίςTelephone
orEmail
. - Εισαγάγετε τον ακόλουθο προσαρμοσμένο κανόνα στο πρόγραμμα επεξεργασίας κανόνων:
Η δυνατότητα Αξιολόγηση ποιότητας δεδομένων παρέχει ενέργειες για τη διαχείριση του αποτελέσματος μιας εργασίας με βάση τα αποτελέσματα της ποιότητας της εργασίας. - Για αυτήν την ανάρτηση, επιλέξτε Αποτυχία εργασίας όταν η ποιότητα των δεδομένων αποτυγχάνει Και επιλέξτε Αποτυχία εργασίας χωρίς φόρτωση στόχου ημερομηνία Ενέργειες. Στο Ρύθμιση εξόδου ποιότητας δεδομένων τμήμα, επιλέξτε Αναζήτηση S3 και μεταβείτε στο πρόθεμα
dqresults
στον κάδο S3 ξεκινώντας απόgluedataqualitystudio-*
. - Στις στόχος μενού, επιλέξτε Amazon S3.
- Επιλέξτε Στόχος δεδομένων – Κάδος S3 κόμβος.
- Στις Ιδιότητες στόχου δεδομένων - S3 καρτέλα, για Μορφή, επιλέξτε Παρκέ, Και για Τύπος συμπίεσης, επιλέξτε Ζωηρός.
- Για Τοποθεσία στόχου S3, επιλέξτε Αναζήτηση S3 και πλοηγηθείτε στο πρόθεμα
/datalake/curated/customer/
στον κάδο S3 ξεκινώντας απόgluedataqualitystudio-*
. - Επιλέξτε Αποθήκευση, κατόπιν επιλέξτε τρέξιμο.
Μπορείτε να προβάλετε τις λεπτομέρειες εκτέλεσης εργασιών στην καρτέλα Εκτέλεση. Στο παράδειγμά μας, η εργασία αποτυγχάνει με το μήνυμα λάθους "AssertionError: Η εργασία απέτυχε λόγω αποτυχίας των κανόνων DQ για τον κόμβο: .»
Μπορείτε να ελέγξετε το αποτέλεσμα ποιότητας δεδομένων στην καρτέλα Ποιότητα δεδομένων. Στο παράδειγμά μας, η προσαρμοσμένη επικύρωση ποιότητας δεδομένων απέτυχε επειδή μία από τις σειρές στο σύνολο δεδομένων δεν είχε καμίαTelephone
orEmail
αξία.Τα αποτελέσματα της αξιολόγησης ποιότητας δεδομένων εγγράφονται επίσης στον κάδο S3 σε μορφή JSON με βάση την παράμετρο θέσης αποτελέσματος ποιότητας δεδομένων του κόμβου. - Πλοηγηθείτε στο
dqresults
πρόθεμα κάτω από την εκκίνηση του κάδου S3gluedataqualitystudio-*
. Θα δείτε ότι το αποτέλεσμα ποιότητας δεδομένων κατατμείται κατά ημερομηνία.
Ακολουθεί η έξοδος του αρχείου JSON. Μπορείτε να χρησιμοποιήσετε αυτήν την έξοδο αρχείου για να δημιουργήσετε προσαρμοσμένους πίνακες εργαλείων οπτικοποίησης ποιότητας δεδομένων.
Μπορείτε επίσης να παρακολουθείτε την Αξιολογήστε την ποιότητα των δεδομένων κόμβος μέσω amazoncloudwatch μετρήσεις και ορίστε ειδοποιήσεις για αποστολή ειδοποιήσεων σχετικά με αποτελέσματα ποιότητας δεδομένων. Για να μάθετε περισσότερα σχετικά με τον τρόπο ρύθμισης των συναγερμών CloudWatch, ανατρέξτε στο Χρήση συναγερμών Amazon CloudWatch.
εκκαθάριση
Για να αποφύγετε μελλοντικές χρεώσεις και για να καθαρίσετε αχρησιμοποίητους ρόλους και πολιτικές, διαγράψτε τους πόρους που δημιουργήσατε:
- Διαγράψτε το
GlueDataQualityStudio
εργασία που δημιουργήσατε ως μέρος αυτής της ανάρτησης. - Στην κονσόλα AWS CloudFormation, διαγράψτε το
GlueDataQualityStudio
σωρός.
Συμπέρασμα
Το AWS Glue Data Quality προσφέρει έναν εύκολο τρόπο μέτρησης και παρακολούθησης της ποιότητας δεδομένων του αγωγού ETL σας. Σε αυτήν την ανάρτηση, μάθατε πώς να κάνετε τις απαραίτητες ενέργειες με βάση τα αποτελέσματα ποιότητας δεδομένων, κάτι που σας βοηθά να διατηρείτε υψηλά πρότυπα δεδομένων και να λαμβάνετε σίγουρες επιχειρηματικές αποφάσεις.
Για να μάθετε περισσότερα σχετικά με την ποιότητα δεδομένων κόλλας AWS, ανατρέξτε στην τεκμηρίωση:
Σχετικά με τους Συγγραφείς
Deenbandhu Prasad είναι Senior Analytics Specialist στην AWS, με ειδίκευση στις υπηρεσίες μεγάλων δεδομένων. Είναι παθιασμένος με το να βοηθά τους πελάτες να δημιουργήσουν σύγχρονη αρχιτεκτονική δεδομένων στο AWS Cloud. Έχει βοηθήσει πελάτες όλων των μεγεθών να εφαρμόσουν λύσεις διαχείρισης δεδομένων, αποθήκης δεδομένων και λιμνών δεδομένων.
Γιάννης Μεντεκίδης είναι Ανώτερος Μηχανικός Ανάπτυξης Λογισμικού στην ομάδα AWS Glue.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- Σχετικά
- πρόσβαση
- Λογαριασμός
- ακριβής
- αναγνωρίζω
- Ενέργειες
- ενεργειών
- Μετά το
- Όλα
- επιτρέπει
- ήδη
- Amazon
- analytics
- και
- αρχιτεκτονική
- AWS
- AWS CloudFormation
- Κόλλα AWS
- Κακός
- κακά δεδομένα
- βασίζονται
- επειδή
- πριν
- Μεγάλος
- Big Data
- χτίζω
- Κτίριο
- επιχείρηση
- περίπτωση
- φορτία
- έλεγχος
- έλεγχοι
- Επιλέξτε
- Backup
- Στήλη
- Κοινός
- πλήρης
- βέβαιος
- Εξετάστε
- πρόξενος
- Καταναλωτές
- Διαφθορά
- δημιουργία
- δημιουργήθηκε
- δημιουργία
- επιμέλεια
- έθιμο
- πελάτης
- Πελάτες
- προσαρμόσετε
- ημερομηνία
- Λίμνη δεδομένων
- διαχείριση δεδομένων
- Ημερομηνία
- αποφάσεις
- καθέκαστα
- Ανάπτυξη
- κατευθείαν
- τεκμηρίωση
- εύκολα
- συντάκτης
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- μηχανικός
- Μηχανικοί
- εισάγετε
- σφάλμα
- Αιθέρας (ΕΤΗ)
- αξιολογήσει
- παράδειγμα
- υπάρχει
- εμπειρία
- Εξηγήστε
- εκχύλισμα
- Απέτυχε
- αποτυγχάνει
- Χαρακτηριστικό
- Αρχεία
- Όνομα
- Εξής
- μορφή
- από
- λειτουργίες
- μελλοντικός
- παράγεται
- δημιουργεί
- να πάρει
- βοήθησε
- βοήθεια
- βοηθά
- Ψηλά
- υψηλής ποιότητας
- Πως
- Πώς να
- Ωστόσο
- HTML
- HTTPS
- Εκατοντάδες
- προσδιορισμό
- Ταυτότητα
- εφαρμογή
- in
- περιλαμβάνει
- εισαγωγή
- θέματα
- IT
- Δουλειά
- Θέσεις εργασίας
- json
- Κλειδί
- λίμνη
- ΜΑΘΑΊΝΩ
- μάθει
- μάθηση
- φορτίο
- φόρτωση
- τοποθεσία
- χάνουν
- μηχανή
- μάθηση μηχανής
- διατηρήσουν
- κάνω
- διαχείριση
- διαχείριση
- διαχείριση
- Ταχύτητες
- μέτρο
- μέτρα
- Μενού
- μήνυμα
- Metrics
- ενδέχεται να
- ΜΟΝΤΕΡΝΑ
- Παρακολούθηση
- οθόνες
- περισσότερο
- πολλαπλούς
- Πλοηγηθείτε
- Πλοήγηση
- απαραίτητος
- ανάγκες
- επόμενη
- κόμβος
- κοινοποιήσεις
- αντικειμένων
- προσφορές
- ONE
- ανοίξτε
- αλλιώς
- παράθυρο
- παράμετρος
- μέρος
- παθιασμένος
- άδεια
- αγωγού
- διάθεση
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- συν
- Πολιτικές
- Θέση
- Προετοιμάστε
- παρόν
- πρόληψη
- Προβολή
- προηγούμενος
- πρωταρχικός
- Διεργασίες
- ιδιότητες
- παρέχουν
- παρέχει
- ποιότητα
- Γρήγορα
- Ακατέργαστος
- Διάβασε
- πρόσφατος
- περιοχή
- απαιτούν
- απαιτείται
- Υποστηρικτικό υλικό
- αποτέλεσμα
- Αποτελέσματα
- ανασκόπηση
- Ρόλος
- ρόλους
- ΣΕΙΡΑ
- Άρθρο
- κανόνες
- τρέξιμο
- ίδιο
- Αναζήτηση
- Τμήμα
- Σειρές
- υπηρεσία
- Υπηρεσίες
- σειρά
- τον καθορισμό
- setup
- δείχνουν
- Δείχνει
- υπογράψουν
- Απλούς
- μεγέθη
- So
- λογισμικό
- ανάπτυξη λογισμικού
- λύση
- Λύσεις
- Πηγή
- ειδικός
- ειδικευμένη
- σωρός
- πρότυπα
- Εκκίνηση
- ξεκίνησε
- Ξεκινήστε
- Βήμα
- Βήματα
- χώρος στο δίσκο
- στούντιο
- κοστούμι
- συνθετικώς
- Πάρτε
- στόχος
- Έργο
- πρότυπο
- Η
- χιλιάδες
- Μέσω
- φορές
- προς την
- σήμερα
- εργαλεία
- Μεταμορφώστε
- μετασχηματίζοντας
- Εμπιστευθείτε
- υπό
- υποκείμενες
- μοναδικός
- αχρησιμοποίητος
- χρήση
- περίπτωση χρήσης
- Χρήστες
- συνήθως
- ΕΠΙΚΥΡΩΝΩ
- επικύρωση
- αξία
- διάφορα
- Δες
- οραματισμός
- περιμένετε
- αν
- Ποιό
- θα
- χωρίς
- λειτουργεί
- γράφω
- γραφή
- γραπτή
- Σας
- zephyrnet