Οι οργανισμοί συχνά χρειάζεται να διαχειρίζονται μεγάλο όγκο δεδομένων που αυξάνεται με εξαιρετικό ρυθμό. Ταυτόχρονα, πρέπει να βελτιστοποιήσουν το λειτουργικό κόστος για να ξεκλειδώσουν την αξία αυτών των δεδομένων για έγκαιρες πληροφορίες και να το κάνουν με σταθερή απόδοση.
Με αυτή τη μαζική ανάπτυξη δεδομένων, ο πολλαπλασιασμός δεδομένων στα καταστήματα δεδομένων, την αποθήκη δεδομένων και τις λίμνες δεδομένων σας μπορεί να γίνει εξίσου προκλητική. Με σύγχρονη αρχιτεκτονική δεδομένων στο AWS, μπορείτε να δημιουργήσετε γρήγορα επεκτάσιμες λίμνες δεδομένων. χρήση μιας ευρείας και βαθιάς συλλογής υπηρεσιών δεδομένων που έχουν δημιουργηθεί για το σκοπό αυτό· διασφαλίζει τη συμμόρφωση μέσω ενοποιημένης πρόσβασης δεδομένων, ασφάλειας και διακυβέρνησης· κλιμακώστε τα συστήματά σας με χαμηλό κόστος χωρίς συμβιβασμούς στην απόδοση. και να μοιράζεστε δεδομένα πέρα από τα όρια του οργανισμού με ευκολία, επιτρέποντάς σας να λαμβάνετε αποφάσεις με ταχύτητα και ευελιξία σε κλίμακα.
Μπορείτε να λάβετε όλα τα δεδομένα σας από διάφορα σιλό, να συγκεντρώσετε αυτά τα δεδομένα στη λίμνη δεδομένων σας και να εκτελέσετε αναλύσεις και μηχανική εκμάθηση (ML) απευθείας πάνω από αυτά τα δεδομένα. Μπορείτε επίσης να αποθηκεύσετε άλλα δεδομένα σε ειδικά κατασκευασμένα καταστήματα δεδομένων για ανάλυση και λήψη γρήγορων πληροφοριών τόσο από δομημένα όσο και από μη δομημένα δεδομένα. Αυτή η κίνηση δεδομένων μπορεί να είναι μέσα-έξω, έξω-μέσα, περιμετρικά ή κοινή χρήση.
Για παράδειγμα, τα αρχεία καταγραφής εφαρμογών και τα ίχνη από εφαρμογές ιστού μπορούν να συλλεχθούν απευθείας σε μια λίμνη δεδομένων και ένα μέρος αυτών των δεδομένων μπορεί να μετακινηθεί σε ένα κατάστημα αναλυτικών στοιχείων καταγραφής όπως το Amazon OpenSearch Service για καθημερινή ανάλυση. Θεωρούμε αυτή την έννοια ως μέσα έξω κίνηση δεδομένων. Τα αναλυμένα και συγκεντρωτικά δεδομένα που είναι αποθηκευμένα στην Υπηρεσία OpenSearch της Amazon μπορούν και πάλι να μετακινηθούν στη λίμνη δεδομένων για την εκτέλεση αλγορίθμων ML για κατανάλωση κατάντη από εφαρμογές. Αναφερόμαστε σε αυτή την έννοια ως έξω-μέσα κίνηση δεδομένων.
Ας δούμε ένα παράδειγμα περίπτωσης χρήσης. Η Example Corp. είναι μια κορυφαία εταιρεία του Fortune 500 που ειδικεύεται στο κοινωνικό περιεχόμενο. Έχουν εκατοντάδες εφαρμογές που παράγουν δεδομένα και ίχνη σε περίπου 500 TB την ημέρα και έχουν τα ακόλουθα κριτήρια:
- Έχετε διαθέσιμα αρχεία καταγραφής για γρήγορη ανάλυση για 2 ημέρες
- Πέρα από 2 ημέρες, να έχετε διαθέσιμα δεδομένα σε ένα επίπεδο αποθήκευσης που μπορεί να διατεθεί για αναλυτικά στοιχεία με εύλογο SLA
- Διατηρήστε τα δεδομένα πέραν της 1 εβδομάδας σε ψυχρή αποθήκευση για 30 ημέρες (για λόγους συμμόρφωσης, ελέγχου και άλλων)
Στις ακόλουθες ενότητες, συζητάμε τρεις πιθανές λύσεις για την αντιμετώπιση παρόμοιων περιπτώσεων χρήσης:
- Διαβαθμισμένη αποθήκευση στην υπηρεσία Amazon OpenSearch και διαχείριση κύκλου ζωής δεδομένων
- Απορρόφηση αρχείων καταγραφής κατά απαίτηση με χρήση Απορρόφηση OpenSearch Amazon
- Άμεσα ερωτήματα της Υπηρεσίας OpenSearch της Amazon με την υπηρεσία απλής αποθήκευσης Amazon (Amazon S3)
Λύση 1: Διαβαθμισμένη αποθήκευση στην υπηρεσία OpenSearch και διαχείριση κύκλου ζωής δεδομένων
Η Υπηρεσία OpenSearch υποστηρίζει τρεις ενσωματωμένες βαθμίδες αποθήκευσης: ζεστό, UltraWarm και κρύο χώρο αποθήκευσης. Με βάση τη διατήρηση δεδομένων, τον λανθάνοντα χρόνο ερωτημάτων και τις απαιτήσεις προϋπολογισμού, μπορείτε να επιλέξετε την καλύτερη στρατηγική για να εξισορροπήσετε το κόστος και την απόδοση. Μπορείτε επίσης να μετεγκαταστήσετε δεδομένα μεταξύ διαφορετικών επιπέδων αποθήκευσης.
Ο ζεστός χώρος αποθήκευσης χρησιμοποιείται για ευρετηρίαση και ενημέρωση και παρέχει την ταχύτερη πρόσβαση στα δεδομένα. Η ζεστή αποθήκευση έχει τη μορφή καταστήματος παρουσίας ή Κατάστημα Amazon Elastic Block (Amazon EBS) τόμοι που συνδέονται σε κάθε κόμβο.
Το UltraWarm προσφέρει σημαντικά χαμηλότερο κόστος ανά GiB για δεδομένα μόνο για ανάγνωση για τα οποία υποβάλλετε ερωτήματα λιγότερο συχνά και δεν χρειάζονται την ίδια απόδοση με τη ζεστή αποθήκευση. Οι UltraWarm κόμβοι χρησιμοποιούν το Amazon S3 με σχετικές λύσεις προσωρινής αποθήκευσης για τη βελτίωση της απόδοσης.
Η ψυχρή αποθήκευση είναι βελτιστοποιημένη για αποθήκευση δεδομένων με σπάνια πρόσβαση ή ιστορικά δεδομένα. Όταν χρησιμοποιείτε ψυχρή αποθήκευση, αποσυνδέετε τα ευρετήριά σας από τη βαθμίδα UltraWarm, καθιστώντας τα απρόσιτα. Μπορείτε να επισυνάψετε ξανά αυτά τα ευρετήρια σε λίγα δευτερόλεπτα όταν χρειαστεί να υποβάλετε ερώτημα σε αυτά τα δεδομένα.
Για περισσότερες λεπτομέρειες σχετικά με τα επίπεδα δεδομένων στην Υπηρεσία OpenSearch, ανατρέξτε στο Επιλέξτε το σωστό επίπεδο αποθήκευσης για τις ανάγκες σας στην Υπηρεσία OpenSearch της Amazon.
Επισκόπηση λύσεων
Η ροή εργασίας για αυτήν τη λύση αποτελείται από τα ακόλουθα βήματα:
- Τα εισερχόμενα δεδομένα που δημιουργούνται από τις εφαρμογές μεταδίδονται σε μια λίμνη δεδομένων S3.
- Τα δεδομένα απορροφώνται στο Amazon OpenSearch χρησιμοποιώντας S3-SQS κατάποση σχεδόν σε πραγματικό χρόνο μέσω ειδοποιήσεων που έχουν ρυθμιστεί στους κάδους S3.
- Μετά από 2 ημέρες, τα ζεστά δεδομένα μεταφέρονται στον χώρο αποθήκευσης UltraWarm για υποστήριξη ερωτημάτων ανάγνωσης.
- Μετά από 5 ημέρες στο UltraWarm, τα δεδομένα μεταφέρονται σε ψυχρή αποθήκευση για 21 ημέρες και αποσπώνται από οποιονδήποτε υπολογισμό. Τα δεδομένα μπορούν να επανασυνδεθούν στο UltraWarm όταν χρειάζεται. Τα δεδομένα διαγράφονται από την ψυχρή αποθήκευση μετά από 21 ημέρες.
- Οι ημερήσιοι δείκτες διατηρούνται για εύκολη ανατροπή. Μια πολιτική διαχείρισης κατάστασης ευρετηρίου (ISM) αυτοματοποιεί τη μετατροπή ή τη διαγραφή ευρετηρίων που είναι παλαιότερα των 2 ημερών.
Το παρακάτω είναι ένα δείγμα πολιτικής ISM που μεταφέρει δεδομένα στο επίπεδο UltraWarm μετά από 2 ημέρες, τα μετακινεί σε ψυχρή αποθήκευση μετά από 5 ημέρες και τα διαγράφει από την ψυχρή αποθήκευση μετά από 21 ημέρες:
Κρίσεις
Το UltraWarm χρησιμοποιεί εξελιγμένες τεχνικές αποθήκευσης στην κρυφή μνήμη για να ενεργοποιήσει το ερώτημα για δεδομένα με σπάνια πρόσβαση. Αν και η πρόσβαση στα δεδομένα είναι σπάνια, ο υπολογισμός για τους κόμβους UltraWarm πρέπει να εκτελείται συνεχώς για να καταστεί δυνατή αυτή η πρόσβαση.
Όταν λειτουργείτε σε κλίμακα PB, για να μειώσετε την περιοχή επίδρασης τυχόν σφαλμάτων, συνιστούμε την αποσύνθεση της υλοποίησης σε πολλούς τομείς της Υπηρεσίας OpenSearch κατά τη χρήση κλιμακωτής αποθήκευσης.
Τα επόμενα δύο μοτίβα εξαλείφουν την ανάγκη για μακροχρόνιο υπολογισμό και περιγράφουν τεχνικές κατ' απαίτηση όπου τα δεδομένα είτε μεταφέρονται όταν χρειάζονται είτε αναζητούνται απευθείας στο σημείο που βρίσκονται.
Λύση 2: Απορρόφηση δεδομένων αρχείων καταγραφής κατ' απαίτηση μέσω Απορρόφησης OpenSearch
Το OpenSearch Ingestion είναι ένας πλήρως διαχειριζόμενος συλλέκτης δεδομένων που παρέχει δεδομένα καταγραφής και ανίχνευσης σε πραγματικό χρόνο σε τομείς της Υπηρεσίας OpenSearch. Η απορρόφηση OpenSearch υποστηρίζεται από τον συλλέκτη δεδομένων ανοιχτού κώδικα Προετοιμασία δεδομένων. Το Data Prepper είναι μέρος του έργο OpenSearch ανοιχτού κώδικα.
Με την Απορρόφηση OpenSearch, μπορείτε να φιλτράρετε, να εμπλουτίζετε, να μετασχηματίζετε και να παραδίδετε τα δεδομένα σας για ανάλυση και οπτικοποίηση κατάντη. Ρυθμίζετε τους παραγωγούς δεδομένων σας να στέλνουν δεδομένα στο OpenSearch Ingestion. Παραδίδει αυτόματα τα δεδομένα στον τομέα ή τη συλλογή που καθορίζετε. Μπορείτε επίσης να διαμορφώσετε την απορρόφηση OpenSearch ώστε να μεταμορφώνει τα δεδομένα σας πριν τα παραδώσει. Το OpenSearch Ingestion είναι χωρίς διακομιστή, επομένως δεν χρειάζεται να ανησυχείτε για την κλιμάκωση της υποδομής σας, τη λειτουργία του στόλου απορρόφησής σας και την επιδιόρθωση ή την ενημέρωση του λογισμικού.
Υπάρχουν δύο τρόποι με τους οποίους μπορείτε να χρησιμοποιήσετε το Amazon S3 ως πηγή για την επεξεργασία δεδομένων με το OpenSearch Ingestion. Η πρώτη επιλογή είναι η επεξεργασία S3-SQS. Μπορείτε να χρησιμοποιήσετε την επεξεργασία S3-SQS όταν χρειάζεστε σάρωση αρχείων σχεδόν σε πραγματικό χρόνο μετά την εγγραφή τους στο S3. Απαιτεί ένα Υπηρεσία απλής ουράς Amazon (Amazon S3) ουρά που λαμβάνει Ειδοποιήσεις συμβάντων S3. Μπορείτε να διαμορφώσετε τους κάδους S3 ώστε να ανεβάζουν ένα συμβάν κάθε φορά που ένα αντικείμενο αποθηκεύεται ή τροποποιείται στον κάδο που πρόκειται να υποβληθεί σε επεξεργασία.
Εναλλακτικά, μπορείτε να χρησιμοποιήσετε μια εφάπαξ ή επαναλαμβανόμενη προγραμματισμένη σάρωση για ομαδική επεξεργασία δεδομένων σε έναν κάδο S3. Για να ρυθμίσετε μια προγραμματισμένη σάρωση, διαμορφώστε τη διοχέτευσή σας με ένα χρονοδιάγραμμα στο επίπεδο σάρωσης που ισχύει για όλους τους κάδους S3 ή σε επίπεδο κάδου. Μπορείτε να διαμορφώσετε τις προγραμματισμένες σαρώσεις είτε με σάρωση μίας χρήσης είτε με επαναλαμβανόμενη σάρωση για ομαδική επεξεργασία.
Για μια ολοκληρωμένη επισκόπηση της Απορρόφησης OpenSearch, βλ Απορρόφηση OpenSearch Amazon. Για περισσότερες πληροφορίες σχετικά με το έργο ανοιχτού κώδικα Data Prepper, επισκεφθείτε Προετοιμασία δεδομένων.
Επισκόπηση λύσεων
Παρουσιάζουμε ένα αρχιτεκτονικό μοτίβο με τα ακόλουθα βασικά στοιχεία:
- Τα αρχεία καταγραφής εφαρμογών μεταδίδονται στη λίμνη δεδομένων, η οποία βοηθά στην τροφοδότηση ζεστών δεδομένων στην Υπηρεσία OpenSearch σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας την απορρόφηση OpenSearch Επεξεργασία S3-SQS.
- Οι πολιτικές ISM εντός της Υπηρεσίας OpenSearch χειρίζονται μετατροπές ή διαγραφές ευρετηρίου. Οι πολιτικές ISM σάς επιτρέπουν να αυτοματοποιείτε αυτές τις περιοδικές, διοικητικές λειτουργίες ενεργοποιώντας τις με βάση τις αλλαγές στην ηλικία του ευρετηρίου, το μέγεθος του ευρετηρίου ή τον αριθμό των εγγράφων. Για παράδειγμα, μπορείτε να ορίσετε μια πολιτική που μετακινεί το ευρετήριό σας σε κατάσταση μόνο για ανάγνωση μετά από 2 ημέρες και στη συνέχεια το διαγράφει μετά από μια καθορισμένη περίοδο 3 ημερών.
- Τα ψυχρά δεδομένα είναι διαθέσιμα στη λίμνη δεδομένων S3 για να καταναλωθούν κατόπιν ζήτησης στην Υπηρεσία OpenSearch χρησιμοποιώντας την απορρόφηση OpenSearch προγραμματισμένες σαρώσεις.
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.
Η ροή εργασίας περιλαμβάνει τα ακόλουθα βήματα:
- Τα εισερχόμενα δεδομένα που παράγονται από τις εφαρμογές μεταδίδονται στη λίμνη δεδομένων S3.
- Για την τρέχουσα ημέρα, τα δεδομένα απορροφώνται στην Υπηρεσία OpenSearch χρησιμοποιώντας S3-SQS απορρόφηση σχεδόν σε πραγματικό χρόνο μέσω ειδοποιήσεων που έχουν ρυθμιστεί στους κάδους S3.
- Οι ημερήσιοι δείκτες διατηρούνται για εύκολη ανατροπή. Μια πολιτική ISM αυτοματοποιεί τη μετατροπή ή τη διαγραφή ευρετηρίων που είναι παλαιότερα των 2 ημερών.
- Εάν υποβληθεί αίτημα για ανάλυση δεδομένων πέραν των 2 ημερών και τα δεδομένα δεν βρίσκονται στη βαθμίδα UltraWarm, τα δεδομένα θα απορροφηθούν χρησιμοποιώντας τη δυνατότητα εφάπαξ σάρωσης του Amazon S3 μεταξύ του συγκεκριμένου χρονικού παραθύρου.
Για παράδειγμα, εάν η σημερινή ημέρα είναι η 10η Ιανουαρίου 2024 και χρειάζεστε δεδομένα από τις 6 Ιανουαρίου 2024 σε συγκεκριμένο χρονικό διάστημα για ανάλυση, μπορείτε να δημιουργήσετε μια διοχέτευση απορρόφησης OpenSearch με σάρωση Amazon S3 στη διαμόρφωση YAML, με το start_time
και end_time
για να καθορίσετε πότε θέλετε να σαρωθούν τα αντικείμενα στον κάδο:
Κρίσεις
Επωφεληθείτε από τη συμπίεση
Τα δεδομένα στο Amazon S3 μπορούν να συμπιεστούν, γεγονός που μειώνει το συνολικό αποτύπωμα δεδομένων και οδηγεί σε σημαντική εξοικονόμηση κόστους. Για παράδειγμα, εάν δημιουργείτε 15 PB ακατέργαστων αρχείων καταγραφής εφαρμογών JSON ανά μήνα, μπορείτε να χρησιμοποιήσετε έναν μηχανισμό συμπίεσης όπως το GZIP, ο οποίος μπορεί να μειώσει το μέγεθος σε περίπου 1 PB ή λιγότερο, με αποτέλεσμα σημαντική εξοικονόμηση κόστους.
Σταματήστε τον αγωγό όταν είναι δυνατόν
Η απορρόφηση OpenSearch κλιμακώνεται αυτόματα μεταξύ του ελάχιστου και του μέγιστου OCU που έχει οριστεί για τη διοχέτευση. Αφού ο αγωγός ολοκληρώσει τη σάρωση του Amazon S3 για την καθορισμένη διάρκεια που αναφέρεται στη διαμόρφωση του αγωγού, ο αγωγός συνεχίζει να λειτουργεί για συνεχή παρακολούθηση στις ελάχιστες OCU.
Για απορρόφηση κατ' απαίτηση για προηγούμενες χρονικές διάρκειες όπου δεν περιμένετε να δημιουργηθούν νέα αντικείμενα, εξετάστε το ενδεχόμενο να χρησιμοποιήσετε υποστηριζόμενες μετρήσεις διοχέτευσης, όπως π.χ. recordsOut.count
για να δημιουργήσω amazoncloudwatch συναγερμοί που μπορούν να σταματήσουν τον αγωγό. Για μια λίστα υποστηριζόμενων μετρήσεων, ανατρέξτε στο Παρακολούθηση μετρήσεων αγωγών.
Οι συναγερμοί CloudWatch εκτελούν μια ενέργεια όταν μια μέτρηση CloudWatch υπερβαίνει μια καθορισμένη τιμή για κάποιο χρονικό διάστημα. Για παράδειγμα, μπορεί να θέλετε να παρακολουθείτε recordsOut.count
να είναι 0 για περισσότερο από 5 λεπτά για να ξεκινήσει ένα αίτημα σταματήστε τον αγωγό μέσα από Διεπαφή γραμμής εντολών AWS (AWS CLI) ή API.
Λύση 3: Απευθείας ερωτήματα της Υπηρεσίας OpenSearch με το Amazon S3
Άμεσα ερωτήματα της Υπηρεσίας OpenSearch με το Amazon S3 (προεπισκόπηση) είναι ένας νέος τρόπος αναζήτησης λειτουργικών αρχείων καταγραφής σε λίμνες δεδομένων Amazon S3 και S3 χωρίς να χρειάζεται εναλλαγή μεταξύ υπηρεσιών. Τώρα μπορείτε να αναλύετε δεδομένα με σπάνια ερωτήματα σε αποθήκες αντικειμένων cloud και ταυτόχρονα να χρησιμοποιείτε τις δυνατότητες λειτουργικών αναλυτικών στοιχείων και οπτικοποίησης της Υπηρεσίας OpenSearch.
Η υπηρεσία OpenSearch παρέχει απευθείας ερωτήματα με το Amazon S3 ενσωμάτωση μηδενικού ETL για να μειώσετε τη λειτουργική πολυπλοκότητα της αντιγραφής δεδομένων ή τη διαχείριση πολλαπλών εργαλείων ανάλυσης, δίνοντάς σας τη δυνατότητα να υποβάλετε απευθείας ερωτήματα στα λειτουργικά δεδομένα σας, μειώνοντας το κόστος και τον χρόνο για δράση. Αυτή η ενοποίηση μηδενικού ETL μπορεί να διαμορφωθεί εντός της Υπηρεσίας OpenSearch, όπου μπορείτε να επωφεληθείτε από διάφορα πρότυπα τύπου αρχείου καταγραφής, συμπεριλαμβανομένων προκαθορισμένων πινάκων εργαλείων, και να διαμορφώσετε επιταχύνσεις δεδομένων προσαρμοσμένες σε αυτόν τον τύπο καταγραφής. Τα πρότυπα περιλαμβάνουν Καταγραφή ροής VPC, Ελαστική εξισορρόπηση φορτίου τα αρχεία καταγραφής και τα αρχεία καταγραφής NGINX και οι επιταχύνσεις περιλαμβάνουν παράβλεψη ευρετηρίων, υλοποιημένες προβολές και καλυμμένα ευρετήρια.
Με τα άμεσα ερωτήματα της υπηρεσίας OpenSearch με το Amazon S3, μπορείτε να εκτελέσετε σύνθετα ερωτήματα που είναι κρίσιμα για την εγκληματολογία ασφαλείας και την ανάλυση απειλών και να συσχετίσετε δεδομένα σε πολλές πηγές δεδομένων, κάτι που βοηθά τις ομάδες στη διερεύνηση του χρόνου διακοπής της υπηρεσίας και των συμβάντων ασφαλείας. Αφού δημιουργήσετε μια ενοποίηση, μπορείτε να ξεκινήσετε να ρωτάτε τα δεδομένα σας απευθείας από τους πίνακες ελέγχου OpenSearch ή το OpenSearch API. Μπορείτε να ελέγξετε τις συνδέσεις για να βεβαιωθείτε ότι έχουν ρυθμιστεί με επεκτάσιμο, οικονομικά αποδοτικό και ασφαλή τρόπο.
Απευθείας ερωτήματα από την Υπηρεσία OpenSearch στο Amazon S3 χρησιμοποιούν πίνακες Spark εντός του Κόλλα AWS Κατάλογος Δεδομένων. Αφού καταγραφεί ο πίνακας στον κατάλογο μεταδεδομένων AWS Glue, μπορείτε να εκτελέσετε ερωτήματα απευθείας στα δεδομένα σας στη λίμνη δεδομένων S3 μέσω των Πίνακες ελέγχου OpenSearch.
Επισκόπηση λύσεων
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.
Αυτή η λύση αποτελείται από τα ακόλουθα βασικά στοιχεία:
- Τα καυτά δεδομένα για την τρέχουσα ημέρα υποβάλλονται σε επεξεργασία ροής σε τομείς της υπηρεσίας OpenSearch μέσω του μοτίβου αρχιτεκτονικής που βασίζεται σε συμβάντα χρησιμοποιώντας τη δυνατότητα επεξεργασίας OpenSearch Ingestion S3-SQS
- Η διαχείριση του κύκλου ζωής των ζεστών δεδομένων γίνεται μέσω πολιτικών ISM που συνδέονται με ημερήσια ευρετήρια
- Τα ψυχρά δεδομένα βρίσκονται στον κάδο σας Amazon S3 και είναι χωρισμένα και καταλογοποιημένα
Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα δείγμα http_logs
πίνακα που περιλαμβάνεται στον κατάλογο μεταδεδομένων AWS Glue. Για λεπτομερή βήματα, ανατρέξτε στο Κατάλογος δεδομένων και ανιχνευτές στο AWS Glue.
Πριν δημιουργήσετε μια πηγή δεδομένων, θα πρέπει να έχετε έναν τομέα OpenSearch Service με έκδοση 2.11 ή μεταγενέστερη και έναν πίνακα στόχο S3 στον Κατάλογο δεδομένων κόλλας AWS με την κατάλληλη Διαχείριση ταυτότητας και πρόσβασης AWS άδειες (IAM). Το IAM θα χρειαστεί πρόσβαση στους επιθυμητούς κάδους S3 και θα έχει πρόσβαση ανάγνωσης και εγγραφής στον Κατάλογο δεδομένων κόλλας AWS. Ακολουθεί ένα δείγμα πολιτικής ρόλων και αξιοπιστίας με τα κατάλληλα δικαιώματα πρόσβασης στον Κατάλογο δεδομένων κόλλας AWS μέσω της Υπηρεσίας OpenSearch:
Ακολουθεί ένα δείγμα προσαρμοσμένης πολιτικής με πρόσβαση στο Amazon S3 και στο AWS Glue:
Για να δημιουργήσετε μια νέα πηγή δεδομένων στην κονσόλα της υπηρεσίας OpenSearch, δώστε το όνομα της νέας προέλευσης δεδομένων, καθορίστε τον τύπο πηγής δεδομένων ως Amazon S3 με τον κατάλογο δεδομένων κόλλας AWSκαι επιλέξτε τον ρόλο IAM για την πηγή δεδομένων σας.
Αφού δημιουργήσετε μια πηγή δεδομένων, μπορείτε να μεταβείτε στον πίνακα ελέγχου OpenSearch του τομέα, τον οποίο χρησιμοποιείτε για να διαμορφώσετε τον έλεγχο πρόσβασης, να ορίσετε πίνακες, να ρυθμίσετε πίνακες εργαλείων βάσει τύπου αρχείου καταγραφής για δημοφιλείς τύπους αρχείων καταγραφής και να υποβάλετε ερώτημα στα δεδομένα σας.
Αφού ρυθμίσετε τους πίνακές σας, μπορείτε να ρωτήσετε τα δεδομένα σας στη λίμνη δεδομένων S3 μέσω των Πίνακες ελέγχου OpenSearch. Μπορείτε να εκτελέσετε ένα δείγμα ερωτήματος SQL για το http_logs
πίνακα που δημιουργήσατε στους πίνακες AWS Glue Data Catalog, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.
Βέλτιστες πρακτικές
Απορροφήστε μόνο τα δεδομένα που χρειάζεστε
Εργαστείτε αντίστροφα από τις ανάγκες της επιχείρησής σας και δημιουργήστε τα σωστά σύνολα δεδομένων που θα χρειαστείτε. Αξιολογήστε εάν μπορείτε να αποφύγετε την απορρόφηση θορυβωδών δεδομένων και να απολαμβάνετε μόνο επιμελημένα, δειγματοληπτικά ή συγκεντρωτικά δεδομένα. Η χρήση αυτών των καθαρισμένων και επιμελημένων συνόλων δεδομένων θα σας βοηθήσει να βελτιστοποιήσετε τους πόρους υπολογισμού και αποθήκευσης που απαιτούνται για την απορρόφηση αυτών των δεδομένων.
Μειώστε το μέγεθος των δεδομένων πριν από την κατάποση
Όταν σχεδιάζετε τις σωληνώσεις απορρόφησης δεδομένων, χρησιμοποιήστε στρατηγικές όπως συμπίεση, φιλτράρισμα και συνάθροιση για να μειώσετε το μέγεθος των απορριπτόμενων δεδομένων. Αυτό θα επιτρέψει τη μεταφορά μικρότερων μεγεθών δεδομένων μέσω του δικτύου και την αποθήκευση στο επίπεδο δεδομένων σας.
Συμπέρασμα
Σε αυτήν την ανάρτηση, συζητήσαμε λύσεις που επιτρέπουν την ανάλυση αρχείων καταγραφής σε κλίμακα petabyte χρησιμοποιώντας την Υπηρεσία OpenSearch σε μια σύγχρονη αρχιτεκτονική δεδομένων. Μάθατε πώς να δημιουργείτε μια διοχέτευση απορρόφησης χωρίς διακομιστή για να παραδίδετε αρχεία καταγραφής σε έναν τομέα της Υπηρεσίας OpenSearch, να διαχειρίζεστε ευρετήρια μέσω πολιτικών ISM, να διαμορφώνετε τα δικαιώματα IAM για να αρχίσετε να χρησιμοποιείτε την Απορρόφηση OpenSearch και να δημιουργείτε τη διαμόρφωση αγωγού για δεδομένα στη λίμνη δεδομένων σας. Μάθατε επίσης πώς να ρυθμίζετε και να χρησιμοποιείτε τα άμεσα ερωτήματα της Υπηρεσίας OpenSearch με τη λειτουργία Amazon S3 (προεπισκόπηση) για να ρωτάτε δεδομένα από τη λίμνη δεδομένων σας.
Για να επιλέξετε το σωστό μοτίβο αρχιτεκτονικής για τους φόρτους εργασίας σας όταν χρησιμοποιείτε την Υπηρεσία OpenSearch σε κλίμακα, λάβετε υπόψη την απόδοση, την καθυστέρηση, το κόστος και τον όγκο δεδομένων με την πάροδο του χρόνου, προκειμένου να λάβετε τη σωστή απόφαση.
- Χρησιμοποιήστε την αρχιτεκτονική διαβαθμισμένης αποθήκευσης με τις πολιτικές διαχείρισης κατάστασης ευρετηρίου όταν χρειάζεστε γρήγορη πρόσβαση στα ζεστά δεδομένα σας και θέλετε να εξισορροπήσετε το κόστος και την απόδοση με τους κόμβους UltraWarm για δεδομένα μόνο για ανάγνωση.
- Χρησιμοποιήστε την απορρόφηση κατ' απαίτηση των δεδομένων σας στην Υπηρεσία OpenSearch όταν μπορείτε να ανεχτείτε καθυστερήσεις απορρόφησης για να υποβάλετε ερωτήματα για τα δεδομένα σας που δεν διατηρούνται στους hot κόμβους σας. Μπορείτε να επιτύχετε σημαντική εξοικονόμηση κόστους όταν χρησιμοποιείτε συμπιεσμένα δεδομένα στο Amazon S3 και λαμβάνετε δεδομένα κατόπιν ζήτησης στην Υπηρεσία OpenSearch.
- Χρησιμοποιήστε τη δυνατότητα Direct Query με S3 όταν θέλετε να αναλύσετε απευθείας τα λειτουργικά αρχεία καταγραφής σας στο Amazon S3 με τις πλούσιες δυνατότητες ανάλυσης και οπτικοποίησης της Υπηρεσίας OpenSearch.
Ως επόμενο βήμα, ανατρέξτε στο Οδηγός προγραμματιστή Amazon OpenSearch για να εξερευνήσετε αρχεία καταγραφής και μετρικούς αγωγούς που μπορείτε να χρησιμοποιήσετε για να δημιουργήσετε μια επεκτάσιμη λύση παρατηρητικότητας για τις εταιρικές σας εφαρμογές.
Σχετικά με τους Συγγραφείς
Jagadish Kumar (Jag) είναι Senior Specialist Solutions Architect στο AWS που επικεντρώνεται στην Υπηρεσία OpenSearch της Amazon. Είναι βαθιά παθιασμένος με την Αρχιτεκτονική Δεδομένων και βοηθά τους πελάτες να δημιουργήσουν λύσεις ανάλυσης σε κλίμακα στο AWS.
Muthu Pitchaimani είναι Senior Specialist Solutions Architect με την Amazon OpenSearch Service. Κατασκευάζει εφαρμογές αναζήτησης και λύσεις μεγάλης κλίμακας. Ο Muthu ενδιαφέρεται για τα θέματα της δικτύωσης και της ασφάλειας και εδρεύει στο Ώστιν του Τέξας.
Σαμ Σέλβαν είναι Κύριος Ειδικός Αρχιτέκτονας Λύσεων με την Υπηρεσία OpenSearch της Amazon.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/petabyte-scale-log-analytics-with-amazon-s3-amazon-opensearch-service-and-amazon-opensearch-ingestion/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 00
- 1
- 10
- 100
- 11
- 15%
- 1h
- 1M
- 2%
- 2024
- 21
- 2D
- 30
- 40
- 5
- 500
- 6
- 610
- a
- ΠΛΗΡΟΦΟΡΙΕΣ
- πρόσβαση
- Πρόσβαση σε δεδομένα
- πρόσβαση
- Κατορθώνω
- απέναντι
- Ενέργειες
- ενεργειών
- διεύθυνση
- διοικητικός
- Πλεονέκτημα
- Μετά το
- πάλι
- την ηλικία του
- σύνολο
- συγκεντρωτικά
- συσσωμάτωση
- ενισχύσεων
- αλγόριθμοι
- Όλα
- επιτρέπουν
- Επιτρέποντας
- Επίσης
- Αν και
- Amazon
- Amazon υπηρεσίες Web
- ποσό
- an
- ανάλυση
- analytics
- αναλύσει
- αναλύθηκε
- και
- κάθε
- api
- Εφαρμογή
- εφαρμογές
- ισχύει
- κατάλληλος
- περίπου
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- γύρω
- AS
- At
- συνημμένο
- έλεγχος
- λογιστικού ελέγχου
- austin
- αυτοματοποίηση
- αυτοκίνητα
- αυτομάτως
- διαθέσιμος
- αποφύγετε
- AWS
- Κόλλα AWS
- Υπόλοιπο
- βασίζονται
- BE
- γίνονται
- πριν
- ΚΑΛΎΤΕΡΟΣ
- μεταξύ
- Πέρα
- Αποκλεισμός
- και οι δύο
- όρια
- ευρύς
- Έφερε
- προϋπολογισμού
- χτίζω
- Χτίζει
- επιχείρηση
- by
- Caching
- CAN
- δυνατότητες
- περίπτωση
- περιπτώσεις
- κατάλογος
- πρόκληση
- Αλλαγές
- Επιλέξτε
- cli
- Backup
- κρύο
- Cold Storage
- συλλέγονται
- συλλογή
- συλλέκτης
- COM
- εταίρα
- Ολοκληρώθηκε το
- συγκρότημα
- περίπλοκο
- Συμμόρφωση
- εξαρτήματα
- περιεκτικός
- συμβιβασμός
- Υπολογίστε
- έννοια
- Συνθήκες
- διαμόρφωση
- Διασυνδέσεις
- Εξετάστε
- συνεπής
- αποτελείται
- πρόξενος
- καταναλώνεται
- κατανάλωση
- περιεχόμενο
- συνεχίζεται
- συνεχής
- έλεγχος
- Corp
- Κόστος
- εξοικονόμηση κόστους
- Δικαστικά έξοδα
- μετράνε
- καλύπτονται
- δημιουργία
- δημιουργήθηκε
- κριτήρια
- κρίσιμης
- επιμέλεια
- Ρεύμα
- έθιμο
- Πελάτες
- καθημερινά
- ταμπλό
- dashboards
- ημερομηνία
- πρόσβαση δεδομένων
- Λίμνη δεδομένων
- αποθήκη δεδομένων
- σύνολα δεδομένων
- Ημερομηνία
- ημέρα
- Ημ.
- απόφαση
- αποφάσεις
- αποσύνθεση
- βαθύς
- βαθιά
- ορίζεται
- delay
- διαγράψετε
- διαγράφηκε
- διαγράφει
- παραδώσει
- παράδοση
- παραδίδει
- Ζήτηση
- περιγράφουν
- περιγραφή
- Υπηρεσίες
- επιθυμητή
- προορισμός
- λεπτομερής
- καθέκαστα
- Εργολάβος
- διάγραμμα
- διαφορετικές
- κατευθύνει
- κατευθείαν
- συζητήσουν
- συζήτηση
- do
- έγγραφα
- Όχι
- τομέα
- domains
- Μην
- downtime
- αντιγραφή
- διάρκεια
- κάθε
- ευκολία
- εύκολος
- εβς
- αποτέλεσμα
- είτε
- ενεργοποιήσετε
- ενεργοποίηση
- εμπλουτίζω
- εξασφαλίζω
- Εταιρεία
- εξίσου
- λάθη
- εγκαθιδρύω
- Αιθέρας (ΕΤΗ)
- αξιολογήσει
- Συμβάν
- εκδηλώσεις
- παράδειγμα
- υπερβαίνει
- αναμένω
- διερευνήσει
- εκθετικός
- έκτακτη
- FAST
- ταχύτερα
- Χαρακτηριστικό
- Χαρακτηριστικά
- λίγοι
- Αρχεία
- φιλτράρισμα
- φιλτράρισμα
- Όνομα
- ΣΤΟΛΟΣ
- ροή
- επικεντρώθηκε
- Εξής
- Ίχνος
- Για
- ιατροδικαστική
- μορφή
- Τύχη
- συχνά
- από
- πλήρως
- παράγεται
- παραγωγής
- παίρνω
- Go
- διακυβέρνησης
- Μεγαλώνοντας
- Ανάπτυξη
- λαβή
- Έχω
- he
- βοήθεια
- βοηθά
- Ψηλά
- ιστορικών
- οικοδεσπότες
- ΚΑΥΤΌ
- Πως
- Πώς να
- HTML
- http
- HTTPS
- Εκατοντάδες
- IAM
- Ταυτότητα
- if
- αγνοήσει
- απεικονίζει
- εκτέλεση
- βελτίωση
- in
- απρόσιτος
- περιλαμβάνουν
- περιλαμβάνει
- Συμπεριλαμβανομένου
- ευρετήριο
- δείκτες
- πληροφορίες
- Υποδομή
- κινήσει
- ιδέες
- παράδειγμα
- ενσωματωθεί
- ολοκλήρωση
- ενδιαφερόμενος
- διάστημα
- σε
- διερευνώντας
- IT
- Ιανουάριος
- jpg
- json
- Κλειδί
- Kumar
- λίμνη
- λίμνες
- μεγάλης κλίμακας
- Αφάνεια
- αργότερα
- στρώμα
- που οδηγεί
- μάθει
- μάθηση
- μείον
- ας
- Επίπεδο
- κύκλος ζωής
- Μου αρέσει
- γραμμή
- Λιστα
- φορτίο
- κούτσουρο
- πλέον
- ματιά
- Χαμηλός
- χαμηλότερα
- μηχανή
- μάθηση μηχανής
- που
- διατηρηθεί
- κάνω
- Κατασκευή
- διαχείριση
- διαχειρίζεται
- διαχείριση
- διαχείριση
- μαζική
- ανώτατο όριο
- μηχανισμός
- που αναφέρθηκαν
- Μεταδεδομένα
- μετρικός
- Metrics
- ενδέχεται να
- μεταναστεύσουν
- μετανάστευσαν
- ελάχιστο
- πρακτικά
- ML
- Αλγόριθμοι ML
- ΜΟΝΤΕΡΝΑ
- τροποποιημένο
- Παρακολούθηση
- παρακολούθηση
- Μηνας
- περισσότερο
- μετακινηθεί
- κίνηση
- κινήσεις
- πολλαπλούς
- όνομα
- Ανάγκη
- που απαιτούνται
- χρειάζονται
- ανάγκες
- δίκτυο
- δικτύωσης
- Νέα
- επόμενη
- nginx
- κόμβος
- κόμβων
- Ν/Α
- κοινοποιήσεις
- τώρα
- αριθμός
- αντικείμενο
- αντικειμένων
- of
- προσφορές
- συχνά
- ηλικιωμένων
- on
- Κατα παραγγελια
- αποκλειστικά
- ανοίξτε
- ανοικτού κώδικα
- λειτουργίας
- επιχειρήσεων
- λειτουργίες
- Βελτιστοποίηση
- βελτιστοποιημένη
- Επιλογή
- or
- τάξη
- οργανωτικός
- ΑΛΛΑ
- Άλλα
- έξω
- επί
- φόρμες
- επισκόπηση
- μέρος
- χωρισμένο
- παθιασμένος
- Το παρελθόν
- Διόρθωση
- πρότυπο
- πρότυπα
- για
- εκτελέσει
- επίδοση
- περίοδος
- περιοδικός
- δικαιώματα
- αγωγού
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Πολιτικές
- πολιτική
- Δημοφιλής
- τμήμα
- δυνατός
- Θέση
- τροφοδοτείται
- παρόν
- Προβολή
- Κύριος
- προτεραιότητα
- διαδικασια μας
- επεξεργασία
- μεταποίηση
- Επεξεργαστής
- Παραγωγούς
- σχέδιο
- πολλαπλασιασμός
- παρέχουν
- παρέχει
- σκοποί
- ερωτήματα
- απορία
- αύξηση
- ταχέως
- Τιμή
- Ακατέργαστος
- Διάβασε
- σε πραγματικό χρόνο
- λογικός
- λαμβάνει
- συνιστώ
- επαναλαμβανόμενα
- μείωση
- μειώνει
- μείωση
- παραπέμπω
- περιοχή
- σχετίζεται με
- αφαιρέστε
- ζητήσει
- απαιτούν
- απαιτήσεις
- Απαιτεί
- κατοικεί
- πόρος
- Υποστηρικτικό υλικό
- με αποτέλεσμα
- Αποτελέσματα
- κράτηση
- Πλούσιος
- δεξιά
- Ρόλος
- ανατροπής
- ρολά
- τρέξιμο
- τρέξιμο
- ίδιο
- δείγμα
- Οικονομίες
- επεκτάσιμη
- Κλίμακα
- Ζυγός
- απολέπιση
- σάρωση
- σάρωσης
- σαρώσεις
- πρόγραμμα
- προγραμματιστεί
- Αναζήτηση
- δευτερόλεπτα
- τμήματα
- προστατευμένο περιβάλλον
- ασφάλεια
- συμβάντα ασφαλείας
- δείτε
- στείλετε
- αρχαιότερος
- Χωρίς διακομιστή
- υπηρεσία
- Υπηρεσίες
- σειρά
- Κοινοποίηση
- μοιράζονται
- θα πρέπει να
- παρουσιάζεται
- Δείχνει
- σημαντικός
- σημαντικά
- σιλό
- παρόμοιες
- Απλούς
- ταυτοχρόνως
- Μέγεθος
- μεγέθη
- μικρότερος
- So
- Μ.Κ.Δ
- λογισμικό
- λύση
- Λύσεις
- μερικοί
- εξελιγμένα
- Πηγή
- Πηγές
- Σπινθήρας
- ειδικός
- ειδικεύεται
- συγκεκριμένες
- καθορίζεται
- ταχύτητα
- SQL
- Εκκίνηση
- Κατάσταση
- Δήλωση
- Μελών
- Βήμα
- Βήματα
- στάση
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- καταστήματα
- στρατηγικές
- Στρατηγική
- μετάδοση
- ροή
- δομημένος
- δομημένα και μη δομημένα δεδομένα
- τέτοιος
- υποστήριξη
- υποστηριζόνται!
- Υποστηρίζει
- διακόπτης
- συστήματα
- τραπέζι
- επειξειργασμένος από ραπτήν
- Πάρτε
- παίρνει
- στόχος
- ομάδες
- τεχνικές
- πρότυπα
- Τέξας
- από
- ότι
- Η
- Η περιοχή
- Τους
- τότε
- Αυτοί
- αυτοί
- Νομίζω
- αυτό
- απειλή
- τρία
- Μέσω
- κερκίδα
- ώρα
- έγκαιρος
- προς την
- εργαλεία
- κορυφή
- Θέματα
- ίχνος
- μεταφέρονται
- Μεταμορφώστε
- μεταβάσεις
- ενεργοποίηση
- αληθής
- Εμπιστευθείτε
- δύο
- τύπος
- τύποι
- ενιαία
- ξεκλειδώσετε
- αδόμητος
- ενημέρωση
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- χρησιμοποιεί
- χρησιμοποιώντας
- αξία
- διάφορα
- εκδοχή
- μέσω
- εμφανίσεις
- Επίσκεψη
- οραματισμός
- τόμος
- όγκους
- θέλω
- Αποθήκη
- ζεστός
- Τρόπος..
- τρόπους
- we
- ιστός
- εφαρμογές ιστού
- διαδικτυακές υπηρεσίες
- εβδομάδα
- πότε
- Ποιό
- θα
- παράθυρο
- με
- εντός
- χωρίς
- ροής εργασίας
- ανησυχία
- γράφω
- γραπτή
- γιαμ
- εσείς
- Σας
- zephyrnet