Δημιουργήστε μια σύγχρονη πλατφόρμα δεδομένων χρησιμοποιώντας το Εργαλείο δημιουργίας δεδομένων (dbt) στο AWS Cloud | Υπηρεσίες Ιστού της Amazon

Δημιουργήστε μια σύγχρονη πλατφόρμα δεδομένων χρησιμοποιώντας το Εργαλείο δημιουργίας δεδομένων (dbt) στο AWS Cloud | Υπηρεσίες Ιστού της Amazon

Κόμβος πηγής: 2374798

Η οικοδόμηση μιας πλατφόρμας δεδομένων περιλαμβάνει διάφορες προσεγγίσεις, η καθεμία με το μοναδικό συνδυασμό πολυπλοκοτήτων και λύσεων. Μια σύγχρονη πλατφόρμα δεδομένων συνεπάγεται διατήρηση δεδομένων σε πολλαπλά επίπεδα, στόχευση διαφορετικών δυνατοτήτων πλατφόρμας, όπως υψηλή απόδοση, ευκολία ανάπτυξης, οικονομική απόδοση και χαρακτηριστικά DataOps όπως CI/CD, lineage και δοκιμές μονάδων. Σε αυτήν την ανάρτηση, εμβαθύνουμε σε μια μελέτη περίπτωσης για μια περίπτωση χρήσης λιανικής, διερευνώντας πώς το Εργαλείο δημιουργίας δεδομένων (dbt) χρησιμοποιήθηκε αποτελεσματικά σε περιβάλλον AWS για τη δημιουργία μιας υψηλής απόδοσης, αποτελεσματικής και σύγχρονης πλατφόρμας δεδομένων.

Το dbt είναι ένα εργαλείο γραμμής εντολών ανοιχτού κώδικα που επιτρέπει σε αναλυτές δεδομένων και μηχανικούς να μετασχηματίζουν τα δεδομένα στις αποθήκες τους πιο αποτελεσματικά. Αυτό το κάνει βοηθώντας τις ομάδες να χειριστούν τις διαδικασίες T στις διαδικασίες ETL (εξαγωγή, μετασχηματισμός και φόρτωση). Επιτρέπει στους χρήστες να γράψουν κώδικα μετασχηματισμού δεδομένων, να τον εκτελέσουν και να δοκιμάσουν την έξοδο, όλα μέσα στο πλαίσιο που παρέχει. Το dbt σάς δίνει τη δυνατότητα να γράψετε δηλώσεις επιλογής SQL και, στη συνέχεια, διαχειρίζεται τη μετατροπή αυτών των δηλώσεων επιλογής σε πίνακες ή προβολές στο Amazon RedShift.

Περίπτωση χρήσης

Ο όμιλος Enterprise Data Analytics ενός μεγάλου λιανοπωλητή κοσμημάτων ξεκίνησε το ταξίδι του στο cloud με το AWS το 2021. Στο πλαίσιο της πρωτοβουλίας εκσυγχρονισμού του cloud, προσπάθησαν να μετεγκαταστήσουν και να εκσυγχρονίσουν την παλαιού τύπου πλατφόρμα δεδομένων τους. Ο στόχος ήταν να ενισχύσουν τις αναλυτικές τους ικανότητες και να βελτιώσουν την προσβασιμότητα των δεδομένων, διασφαλίζοντας ταυτόχρονα γρήγορο χρόνο στην αγορά και υψηλή ποιότητα δεδομένων, όλα με χαμηλό συνολικό κόστος ιδιοκτησίας (TCO) και χωρίς ανάγκη για πρόσθετα εργαλεία ή άδειες.

Το dbt αναδείχθηκε ως η τέλεια επιλογή για αυτόν τον μετασχηματισμό στο υπάρχον περιβάλλον AWS. Αυτό το δημοφιλές εργαλείο ανοιχτού κώδικα για μετασχηματισμούς αποθήκης δεδομένων κέρδισε άλλα εργαλεία ETL για διάφορους λόγους. Το πλαίσιο που βασίζεται σε SQL της dbt έκανε εύκολη τη μάθηση και επέτρεψε στην υπάρχουσα ομάδα ανάπτυξης να κλιμακωθεί γρήγορα. Το εργαλείο πρόσφερε επίσης επιθυμητές λειτουργίες εκτός συσκευασίας, όπως η γενεαλογία δεδομένων, η τεκμηρίωση και η δοκιμή μονάδας. Ένα κρίσιμο πλεονέκτημα του dbt έναντι των αποθηκευμένων διαδικασιών ήταν ο διαχωρισμός του κώδικα από τα δεδομένα—σε αντίθεση με τις αποθηκευμένες διαδικασίες, το dbt δεν αποθηκεύει τον κώδικα στην ίδια τη βάση δεδομένων. Αυτός ο διαχωρισμός απλοποιεί περαιτέρω τη διαχείριση δεδομένων και βελτιώνει τη συνολική απόδοση του συστήματος.

Ας εξερευνήσουμε την αρχιτεκτονική και ας μάθουμε πώς να δημιουργήσουμε αυτήν την περίπτωση χρήσης χρησιμοποιώντας τις υπηρεσίες AWS Cloud.

Επισκόπηση λύσεων

Η ακόλουθη αρχιτεκτονική δείχνει τη διοχέτευση δεδομένων που έχει δημιουργηθεί σε dbt για τη διαχείριση της διαδικασίας ETL της αποθήκης δεδομένων Redshift.

        Εικόνα 1 : Σύγχρονη πλατφόρμα δεδομένων που χρησιμοποιεί AWS Data Services και dbt

Αυτή η αρχιτεκτονική αποτελείται από τις ακόλουθες βασικές υπηρεσίες και εργαλεία:

  • Amazon RedShift χρησιμοποιήθηκε ως αποθήκη δεδομένων για την πλατφόρμα δεδομένων, αποθήκευση και επεξεργασία τεράστιων ποσοτήτων δομημένων και ημιδομημένων δεδομένων
  • Amazon QuickSight χρησίμευσε ως εργαλείο επιχειρηματικής ευφυΐας (BI), επιτρέποντας στην επιχειρηματική ομάδα να δημιουργεί αναλυτικές αναφορές και πίνακες εργαλείων για διάφορες επιχειρηματικές πληροφορίες
  • Υπηρεσία μετεγκατάστασης βάσης δεδομένων AWS (AWS DMS) χρησιμοποιήθηκε για την εκτέλεση αντιγραφής σύλληψης δεδομένων αλλαγής (CDC) από διάφορες βάσεις δεδομένων συναλλαγών προέλευσης
  • Κόλλα AWS τέθηκε σε λειτουργία, φορτώνοντας αρχεία από τη θέση SFTP στο Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος προσγείωσης και στη συνέχεια στο σχήμα προσγείωσης Redshift
  • AWS Lambda λειτουργούσε ως πρόγραμμα πελάτη, καλώντας API τρίτων και φορτώνοντας τα δεδομένα σε πίνακες Redshift
  • AWS Fargate, μια υπηρεσία διαχείρισης κοντέινερ χωρίς διακομιστή, χρησιμοποιήθηκε για την ανάπτυξη της εφαρμογής καταναλωτή για ουρές πηγής και θέματα
  • Ροές εργασίας που διαχειρίζεται η Amazon για ροή αέρα Apache (Amazon MWAA) χρησιμοποιήθηκε για την ενορχήστρωση διαφορετικών εργασιών των αγωγών dbt
  • dbt, ένα εργαλείο ανοιχτού κώδικα, χρησιμοποιήθηκε για τη σύνταξη αγωγών δεδομένων που βασίζονται σε SQL για δεδομένα που είναι αποθηκευμένα στο Amazon Redshift, διευκολύνοντας πολύπλοκους μετασχηματισμούς και βελτιώνοντας τις δυνατότητες μοντελοποίησης δεδομένων

Ας ρίξουμε μια πιο προσεκτική ματιά σε κάθε στοιχείο και πώς αλληλεπιδρούν στη συνολική αρχιτεκτονική για να μετατρέψουμε τα ακατέργαστα δεδομένα σε διορατικές πληροφορίες.

Πηγές δεδομένων

Ως μέρος αυτής της πλατφόρμας δεδομένων, λαμβάνουμε δεδομένα από διαφορετικές και ποικίλες πηγές δεδομένων, όπως:

  • Βάσεις δεδομένων συναλλαγών – Πρόκειται για ενεργές βάσεις δεδομένων που αποθηκεύουν δεδομένα σε πραγματικό χρόνο από διάφορες εφαρμογές. Τα δεδομένα συνήθως καλύπτουν όλες τις συναλλαγές και τις λειτουργίες στις οποίες εμπλέκεται η επιχείρηση.
  • Ουρές και θέματα – Οι ουρές και τα θέματα προέρχονται από διάφορες εφαρμογές ενοποίησης που δημιουργούν δεδομένα σε πραγματικό χρόνο. Αντιπροσωπεύουν μια στιγμιαία ροή πληροφοριών που μπορεί να χρησιμοποιηθεί για ανάλυση και λήψη αποφάσεων σε πραγματικό χρόνο.
  • API τρίτων - Αυτά παρέχουν αναλυτικά στοιχεία και δεδομένα ερευνών που σχετίζονται με ιστότοπους ηλεκτρονικού εμπορίου. Αυτό θα μπορούσε να περιλαμβάνει λεπτομέρειες όπως μετρήσεις επισκεψιμότητας, συμπεριφορά χρήστη, ποσοστά μετατροπών, σχόλια πελατών και άλλα.
  • Επίπεδα αρχεία – Άλλα συστήματα παρέχουν δεδομένα με τη μορφή επίπεδων αρχείων διαφορετικών μορφών. Αυτά τα αρχεία, που είναι αποθηκευμένα σε μια θέση SFTP, ενδέχεται να περιέχουν εγγραφές, αναφορές, αρχεία καταγραφής ή άλλα είδη πρωτογενών δεδομένων που μπορούν να υποστούν περαιτέρω επεξεργασία και ανάλυση.

Κατάποση δεδομένων

Τα δεδομένα από διάφορες πηγές ομαδοποιούνται σε δύο μεγάλες κατηγορίες: κατάποση σε πραγματικό χρόνο και κατάποση παρτίδας.

Η απορρόφηση σε πραγματικό χρόνο χρησιμοποιεί τις ακόλουθες υπηρεσίες:

  • AWS DMS - Το AWS DMS χρησιμοποιείται για τη δημιουργία αγωγών αναπαραγωγής CDC από βάσεις δεδομένων OLTP (Online Transaction Processing). Τα δεδομένα φορτώνονται στο Amazon Redshift σε σχεδόν πραγματικό χρόνο για να διασφαλιστεί ότι οι πιο πρόσφατες πληροφορίες είναι διαθέσιμες για ανάλυση. Μπορείτε επίσης να χρησιμοποιήσετε Ενσωμάτωση Amazon Aurora zero-ETL με το Amazon Redshift για να απορροφήσει δεδομένα απευθείας από τις βάσεις δεδομένων OLTP στο Amazon Redshift.
  • Φάργκεϊτ -Το Fargate χρησιμοποιείται για την ανάπτυξη εφαρμογών καταναλωτών Java που απορροφούν δεδομένα από θέματα πηγής και ουρές σε πραγματικό χρόνο. Αυτή η κατανάλωση δεδομένων σε πραγματικό χρόνο μπορεί να βοηθήσει την επιχείρηση να λάβει άμεσες και ενημερωμένες από δεδομένα αποφάσεις. Μπορείτε επίσης να χρησιμοποιήσετε Κατάποση ροής Amazon Redshift για την απορρόφηση δεδομένων από μηχανές ροής όπως Ροές δεδομένων Amazon Kinesis or Amazon Managed Streaming για το Apache Kafka (Amazon MSK) στο Amazon Redshift.

Η μαζική απορρόφηση χρησιμοποιεί τις ακόλουθες υπηρεσίες:

  • Λάμδα – Το Lambda χρησιμοποιείται ως πελάτης για την κλήση API τρίτων και τη φόρτωση των δεδομένων που προκύπτουν σε πίνακες Redshift. Αυτή η διαδικασία έχει προγραμματιστεί να εκτελείται καθημερινά, διασφαλίζοντας μια συνεπή παρτίδα φρέσκων δεδομένων για ανάλυση.
  • Κόλλα AWS – Το AWS Glue χρησιμοποιείται για τη φόρτωση αρχείων στο Amazon Redshift μέσω της λίμνης δεδομένων S3. Μπορείτε επίσης να χρησιμοποιήσετε λειτουργίες όπως αυτόματη αντιγραφή από το Amazon S3 (λειτουργία σε προεπισκόπηση) για την απορρόφηση δεδομένων από το Amazon S3 στο Amazon Redshift. Ωστόσο, η εστίαση αυτής της ανάρτησης είναι περισσότερο στην επεξεργασία δεδομένων στο Amazon Redshift, παρά στη διαδικασία φόρτωσης δεδομένων. Η απορρόφηση δεδομένων, είτε σε πραγματικό χρόνο είτε ομαδική, αποτελεί τη βάση οποιασδήποτε αποτελεσματικής ανάλυσης δεδομένων, επιτρέποντας στους οργανισμούς να συλλέγουν πληροφορίες από διαφορετικές πηγές και να τις χρησιμοποιούν για διορατική λήψη αποφάσεων.

Αποθήκευση δεδομένων με χρήση του Amazon Redshift

Στο Amazon Redshift, έχουμε δημιουργήσει τρία σχήματα, το καθένα από τα οποία χρησιμεύει ως διαφορετικό επίπεδο στην αρχιτεκτονική δεδομένων:

  • Στρώμα προσγείωσης - Αυτό είναι όπου αρχικά προσγειώνονται όλα τα δεδομένα που λαμβάνονται από τις υπηρεσίες μας. Είναι ακατέργαστα, μη επεξεργασμένα δεδομένα απευθείας από την πηγή.
  • Επίπεδο πιστοποιημένου συνόλου δεδομένων (CDS) – Αυτό είναι το επόμενο στάδιο, όπου τα δεδομένα από το επίπεδο προσγείωσης υφίστανται καθαρισμό, κανονικοποίηση και συσσώρευση. Τα καθαρισμένα και επεξεργασμένα δεδομένα αποθηκεύονται σε αυτό το πιστοποιημένο σχήμα δεδομένων. Χρησιμεύει ως αξιόπιστη, οργανωμένη πηγή για την ανάλυση δεδομένων κατάντη.
  • Φιλικό προς το χρήστη επίπεδο data mart (UFDM) – Αυτό το τελικό επίπεδο χρησιμοποιεί δεδομένα από το επίπεδο CDS για τη δημιουργία πινάκων μάρκετ δεδομένων. Αυτά είναι ειδικά προσαρμοσμένα για να υποστηρίζουν αναφορές BI και πίνακες εργαλείων σύμφωνα με τις επιχειρηματικές απαιτήσεις. Ο στόχος αυτού του επιπέδου είναι να παρουσιάσει τα δεδομένα με τρόπο που είναι πιο χρήσιμος και προσβάσιμος για τους τελικούς χρήστες.

Αυτή η πολυεπίπεδη προσέγγιση στη διαχείριση δεδομένων επιτρέπει την αποτελεσματική και οργανωμένη επεξεργασία δεδομένων, οδηγώντας σε πιο ακριβείς και ουσιαστικές πληροφορίες.

Αγωγός δεδομένων

Το dbt, ένα εργαλείο ανοιχτού κώδικα, μπορεί να εγκατασταθεί στο περιβάλλον AWS και να ρυθμιστεί ώστε να λειτουργεί με το Amazon MWAA. Αποθηκεύουμε τον κωδικό μας σε έναν κάδο S3 και τον ενορχηστρώνουμε χρησιμοποιώντας τα Κατευθυνόμενα Ακυκλικά Γραφήματα (DAGs) της ροής αέρα. Αυτή η ρύθμιση διευκολύνει τις διαδικασίες μετασχηματισμού δεδομένων στο Amazon Redshift μετά την απορρόφηση των δεδομένων στο σχήμα προσγείωσης.

Για να διατηρήσουμε την αρθρωτή δομή και να χειριστούμε συγκεκριμένους τομείς, δημιουργούμε μεμονωμένα έργα dbt. Η φύση της αναφοράς δεδομένων —σε πραγματικό χρόνο ή παρτίδα— επηρεάζει τον τρόπο με τον οποίο ορίζουμε την υλοποίηση του dbt. Για αναφορές σε πραγματικό χρόνο, ορίζουμε την υλοποίηση ως προβολή, η φόρτωση δεδομένων στο σχήμα προσγείωσης χρησιμοποιώντας AWS DMS από ενημερώσεις βάσης δεδομένων ή από καταναλωτές θέματος ή ουράς. Για σωλήνες παρτίδας, ορίζουμε την υλοποίηση ως πίνακα, που επιτρέπει τη φόρτωση δεδομένων από διάφορους τύπους πηγών.

Σε ορισμένες περιπτώσεις, χρειάστηκε να δημιουργήσουμε αγωγούς δεδομένων που εκτείνονται από το σύστημα προέλευσης μέχρι το επίπεδο UFDM. Αυτό μπορεί να επιτευχθεί χρησιμοποιώντας Airflow DAG, τα οποία θα συζητήσουμε περαιτέρω στην επόμενη ενότητα.

Για να ολοκληρώσουμε, αξίζει να αναφέρουμε ότι αναπτύσσουμε μια ιστοσελίδα dbt χρησιμοποιώντας μια συνάρτηση Lambda και ενεργοποιούμε μια διεύθυνση URL για αυτήν τη λειτουργία. Αυτή η ιστοσελίδα χρησιμεύει ως κόμβος τεκμηρίωσης και γενεαλογίας δεδομένων, ενισχύοντας περαιτέρω τη διαφάνεια και την κατανόηση των διαδικασιών δεδομένων μας.

Ενορχήστρωση εργασιών ETL

Στη γραμμή δεδομένων μας, ακολουθούμε αυτά τα βήματα για την ενορχήστρωση εργασιών:

  1. Δημιουργήστε ένα νέο περιβάλλον Amazon MWAA. Αυτό το περιβάλλον χρησιμεύει ως κεντρικός κόμβος για την ενορχήστρωση των αγωγών δεδομένων μας.
  2. Εγκαταστήστε το dbt στο νέο περιβάλλον Airflow προσθέτοντας την ακόλουθη εξάρτηση στο περιβάλλον σας requirements.txt:
    boto3>=1.17.54
    botocore>=1.20.54
    dbt-redshift>=1.3.0
    dbt-postgres>=1.3.0

  3. Αναπτύξτε DAG με συγκεκριμένες εργασίες που απαιτούν εντολές dbt για να πραγματοποιήσουν τους απαραίτητους μετασχηματισμούς. Αυτό το βήμα περιλαμβάνει τη δόμηση των ροών εργασίας μας με τρόπο που να καταγράφει τις εξαρτήσεις μεταξύ των εργασιών και να διασφαλίζει ότι οι εργασίες εκτελούνται με τη σωστή σειρά. Ο παρακάτω κώδικας δείχνει πώς να ορίσετε τις εργασίες στο DAG:
    #imports..
    ... #Define the begin_exec tasks
    start = DummyOperator( task_id='begin_exec', dag=dag ) #Define 'verify_dbt_install' task to check if dbt was installed properly
    verify = BashOperator( task_id='verify_dbt_install', dag=dag, bash_command=''' echo "checking dbt version...."; /usr/local/airflow/.local/bin/dbt --version; if [ $? -gt 0 ]; then pip install dbt-redshift>=1.3.0; else echo "dbt already installed"; fi python --version; echo "listing dbt..."; rm -r /tmp/dbt_project_home; cp -R /usr/local/airflow/dags/dbt_project_home /tmp; ls /tmp/dbt_project_home/<your_dbt_project_name>; '''
    ) #Define ‘landing_to_cds_task’ task to copy from landing schema to cds schema
    landing_to_cds_task = BashOperator( task_id='landing_to_cds_task', dag = dag, bash_command=''' /usr/local/airflow/.local/bin/dbt run --project-dir /tmp/dbt_project_home/<your_dbt_project_name> --profiles-dir /tmp/dbt_project_home/ --select <model_folder_name>.*; '''
    ) ...
    #Define data quality check task to test a package, generate docs and copy the docs to required S3 location
    data_quality_check = BashOperator( task_id='data_quality_check', dag=dag, bash_command=''' /usr/local/airflow/.local/bin/dbt test –-select your_package.* /usr/local/airflow/.local/bin/dbt docs generate --project-dir /tmp/dbt_project_home/<your_project_name> --profiles-dir /tmp/dbt_project_home/; aws s3 cp /tmp/dbt_project_home/<your_project_name>/target/ s3://<your_S3_bucket_name>/airflow_home/dags/dbt_project_home/<your_project_name>/target --recursive; '''
    )

  4. Δημιουργήστε DAG που εστιάζουν αποκλειστικά στον μετασχηματισμό dbt. Αυτά τα DAG χειρίζονται τη διαδικασία μετασχηματισμού εντός των αγωγών δεδομένων μας, αξιοποιώντας τη δύναμη του dbt για τη μετατροπή των ακατέργαστων δεδομένων σε πολύτιμες πληροφορίες.
    #This is how we define the flow start >> verify >> landing_to_cds_task >> cds_to_ufdm_task >> data_quality_check >> end_exec

Η παρακάτω εικόνα δείχνει πώς θα εμφανιζόταν αυτή η ροή εργασίας στη διεπαφή χρήστη Airflow .

  1. Δημιουργήστε DAG με κόλλα AWS για κατάποση. Αυτά τα DAG χρησιμοποιούν κόλλα AWS για εργασίες απορρόφησης δεδομένων. Το AWS Glue είναι μια πλήρως διαχειριζόμενη υπηρεσία ETL που διευκολύνει την προετοιμασία και τη φόρτωση δεδομένων για ανάλυση. Δημιουργούμε DAG που ενορχηστρώνουν εργασίες AWS Glue για την εξαγωγή δεδομένων από διάφορες πηγές, τη μετατροπή τους και τη φόρτωσή τους στην αποθήκη δεδομένων μας.
     #Create boto3 client for Glue glue_client = boto3.client('glue', region_name='us-east-1') #Define callback function to start the Glue job using boto3 client def run_glue_ingestion_job(): glue_client.start_job_run(JobName='glue_ingestion_job') #Define the task for glue job for ingestion glue_job_step = PythonOperator( task_id=’glue_task_for_source_to_landing’, python_callable=run_glue_ingestion_job )
    #This is how we define the flow start >> verify >> glue_task_for_source_to_landing >> landing_to_cds_task >> cds_to_ufdm_task >> data_quality_check >> end_exec
    

Η παρακάτω εικόνα δείχνει πώς θα εμφανιζόταν αυτή η ροή εργασίας στη διεπαφή χρήστη Airflow.

  1. Δημιουργήστε DAG με το Lambda για κατάποση. Το Lambda μας επιτρέπει να εκτελούμε κώδικα χωρίς παροχή ή διαχείριση διακομιστών. Αυτά τα DAG χρησιμοποιούν συναρτήσεις Lambda για να καλούν API τρίτων και να φορτώνουν δεδομένα στους πίνακες Redshift, οι οποίοι μπορούν να προγραμματιστούν να εκτελούνται σε συγκεκριμένα διαστήματα ή ως απόκριση σε συγκεκριμένα συμβάντα.
    #Create boto3 client for Lambda lambda_client = boto3.client('lambda') #Define callback function to invoke the lambda function using boto3 client def run_lambda_ingestion_job(): Lambda_client.invoke(FunctionName='<funtion_arn>')
    ) #Define the task for glue job for ingestion
    glue_job_step = PythonOperator( task_id=’lambda_task_for_api_to_landing’, python_callable=run_lambda_ingestion_job
    )

Η παρακάτω εικόνα δείχνει πώς θα εμφανιζόταν αυτή η ροή εργασίας στη διεπαφή χρήστη Airflow.

Τώρα έχουμε μια ολοκληρωμένη, καλά ενορχηστρωμένη διαδικασία που χρησιμοποιεί μια ποικιλία υπηρεσιών AWS για να χειριστεί διαφορετικά στάδια της διοχέτευσης δεδομένων μας, από την απορρόφηση έως τη μετατροπή.

Συμπέρασμα

Ο συνδυασμός των υπηρεσιών AWS και του έργου ανοιχτού κώδικα dbt παρέχει μια ισχυρή, ευέλικτη και επεκτάσιμη λύση για τη δημιουργία σύγχρονων πλατφορμών δεδομένων. Είναι ένας τέλειος συνδυασμός διαχειρισιμότητας και λειτουργικότητας, με το εύχρηστο πλαίσιο που βασίζεται σε SQL και λειτουργίες όπως έλεγχοι ποιότητας δεδομένων, διαμορφώσιμοι τύποι φορτίου και λεπτομερής τεκμηρίωση και γενεαλογία. Οι αρχές του "χωριστός κώδικας από τα δεδομένα" και η επαναχρησιμοποίηση του το καθιστούν ένα βολικό και αποτελεσματικό εργαλείο για ένα ευρύ φάσμα χρηστών. Αυτή η πρακτική περίπτωση χρήσης της δημιουργίας μιας πλατφόρμας δεδομένων για έναν οργανισμό λιανικής καταδεικνύει τις τεράστιες δυνατότητες του AWS και του dbt για τον μετασχηματισμό της διαχείρισης δεδομένων και των αναλυτικών στοιχείων, ανοίγοντας το δρόμο για ταχύτερες πληροφορίες και τεκμηριωμένες επιχειρηματικές αποφάσεις.

Για περισσότερες πληροφορίες σχετικά με τη χρήση του dbt με το Amazon Redshift, βλ Διαχειριστείτε μετασχηματισμούς δεδομένων με dbt στο Amazon Redshift.


Σχετικά με τους Συγγραφείς

Prantik Gachhayat είναι Enterprise Architect στην Infosys με εμπειρία σε διάφορους τομείς τεχνολογίας και επιχειρηματικούς τομείς. Έχει αποδεδειγμένο ιστορικό βοηθώντας μεγάλες επιχειρήσεις να εκσυγχρονίσουν τις ψηφιακές πλατφόρμες και να προσφέρουν σύνθετα προγράμματα μετασχηματισμού. Η Prantik ειδικεύεται στην αρχιτεκτονική των σύγχρονων πλατφορμών δεδομένων και αναλυτικών στοιχείων στο AWS. Η Prantik λατρεύει να εξερευνά τις νέες τάσεις της τεχνολογίας και της αρέσει να μαγειρεύει.

Ashutosh Dubey είναι Senior Partner Solutions Architect και Global Tech ηγέτης στην Amazon Web Services με έδρα το New Jersey των ΗΠΑ. Έχει εκτεταμένη εμπειρία με εξειδίκευση στον τομέα Δεδομένων και Αναλύσεων και AIML, συμπεριλαμβανομένης της γενετικής AI, συνέβαλε στην κοινότητα γράφοντας διάφορα τεχνολογικά περιεχόμενα και έχει βοηθήσει εταιρείες του Fortune 500 στο ταξίδι τους στο cloud στο AWS.

Σφραγίδα ώρας:

Περισσότερα από Μεγάλα δεδομένα AWS