Data Preparation Using An Amazon RDS For MySQL Database With AWS Glue DataBrew

Taasavaldanud Platon

järgijaid: 0

koos AWS Glue DataBrew, saavad andmeanalüütikud ja andmeteadlased hõlpsasti juurde pääseda ja visuaalselt uurida mis tahes andmeid kogu oma organisatsioonis otse oma Amazoni lihtne salvestusteenus (Amazon S3) Data Lake, Amazoni punane nihe andmeladu või Amazonase Aurora ja Amazoni relatsioonide andmebaasiteenus (Amazon RDS) andmebaasid. Saate valida enam kui 250 sisseehitatud funktsiooni hulgast andmete liitmiseks, pöördeks ja transponeerimiseks ilma koodi kirjutamata.

Nüüd, koos JDBC-juurdepääsetavate andmebaaside toega, toetab DataBrew ka täiendavaid andmesalve, sealhulgas PostgreSQL, MySQL, Oracle ja Microsoft SQL Server. Selles postituses kasutame DataBrew'i andmete puhastamiseks RDS-andmebaasist, puhastatud andmete salvestamiseks S3 andmejärves ja ärianalüüsi (BI) aruande koostamiseks.

Kasutusjuhtumi ülevaade

Kasutame kolme andmekogumit:

Kooli andmestik, mis sisaldab kooli üksikasju, nagu kooli ID ja kooli nimi
Õpilase andmestik, mis sisaldab õpilase üksikasju, nagu õpilase ID, nimi ja vanus
Õpilasuuring sisaldab üksikasjalikku andmestikku, mis sisaldab õpilase õppimisaega, tervist, riiki ja muud

Järgmine diagramm näitab nende tabelite seost.

Meie kasutusjuhtumi jaoks kogub neid andmeid küsitlusorganisatsioon pärast iga-aastast eksamit ja neid värskendatakse Amazon RDS MySQL-i jaoks kasutades Java skriptipõhist kasutajaliidese rakendust. Ühendame tabelid, et luua ühtne vaade ja luua koondandmed läbi andmete ettevalmistamise etappide seeria ning ärimeeskond kasutab väljundandmeid BI-aruannete koostamiseks.

Lahenduse ülevaade

Järgmine diagramm illustreerib meie lahenduse arhitektuuri. Kasutame andmete salvestamiseks Amazon RDS-i, andmete ettevalmistamiseks DataBrew'd, Amazonase Athena andmete analüüsimiseks standardse SQL-iga ja Amazon QuickSight äriaruandluse jaoks.

Töövoog sisaldab järgmisi samme:

Looge RDS-i ja DataBrew projekti jaoks JDBC-ühendus. DataBrew teeb muudatuse, et leida parimate tulemustega õpilased kõigist analüüsimiseks mõeldud koolidest.
DataBrew töö kirjutab lõpliku väljundi meie S3 väljundi ämbrisse.
Pärast väljundandmete kirjutamist saame Athena abil luua nende peale välised tabelid, luua tabelilaused ja laadida partitsioonid MCSK REPAIR käskudega.
Ärikasutajad saavad BI aruandluse jaoks kasutada QuickSighti, mis hangib andmeid Athena kaudu. Andmeanalüütikud saavad kasutada ka Athenat kogu värskendatud andmekogumi analüüsimiseks.

Eeldused

Selle lahenduse lõpuleviimiseks peaks teil olema AWS-i konto.

Eellabori seadistamine

Enne selle õpetuse alustamist veenduge, et teil on lahenduse osana vajalike ressursside loomiseks vajalikud õigused.

Meie kasutusjuhtumi puhul kasutame kolme näidisandmestikku. DDL-koodi ja andmefaile saate alla laadida aadressilt GitHub.

Looge MySQL-i eksemplari jaoks RDS õpilaste terviseandmete jäädvustamiseks.
Veenduge, et olete Amazon RDS-i jaoks seadistanud õige turberühma. Lisateabe saamiseks vt VPC seadistamine JDBC andmepoodidega ühenduse loomiseks.
Loo kolm tabelit: student_tbl, study_details_tblja school_tbl. Andmebaasiobjektide loomiseks saate kasutada DDLsqli.
Laadige üles student.csv, study_details.csvja school.csv failid vastavates tabelites. Sa võid kasutada student.sql, study_details.sqlja school.sql et sisestada andmed tabelitesse.

Looge Amazon RDS-ühendus

Amazon RDS-ühenduse loomiseks toimige järgmiselt.

Valige DataBrew konsoolil Andmekogumid.
Kohta Side valige vahekaart Loo ühendus.

eest Ühenduse nimi, sisestage nimi (näiteks student_db-conn).
eest Ühenduse tüüpvalige JDBC.
eest Andmebaasi tüüp, vali MySQL.

Esitage muud parameetrid, nagu RDS-i lõpp-punkt, port, andmebaasi nimi ja andmebaasi sisselogimismandaadid.

aasta Võrguvalikud jaotises valige oma RDS-i eksemplari VPC, alamvõrk ja turberühm.
Vali Loo ühendus.

Looge oma andmekogumid

Meil on Amazon RDS-is kolm tabelit: school_tbl, student_tblja study_details_tbl. Nende tabelite kasutamiseks peame esmalt looma iga tabeli jaoks andmekogumi.

Andmekogumite loomiseks tehke järgmised sammud (jutustame teid kooli andmestiku loomisel):

Kohta Andmekogumid DataBrew konsooli lehel, valige Ühendage uus andmestik.

eest Andmestiku nimi, sisestage kooli andmekogu.
Vali ühendus sa lõid (AwsGlueDatabrew-student-db-conn).
eest Tabeli nimi, sisenema school_tbl.
Vali Loo andmestik.

Korrake neid samme student_tbl ja study_details_tbl tabelid ja nimetage uus datasets student-dataset ja study-detail-dataset, respectively.

Kõik kolm andmekogumit on saidil kasutamiseks saadaval Andmekogumid lehel.

Looge projekt, kasutades andmekogumeid

DataBrew projekti loomiseks toimige järgmiselt.

Valige DataBrew konsoolil Projektid.
Vali Loo projekt.
eest Projekti nimi, sisenema my-rds-proj.
eest Lisatud retsept, vali Loo uus retsept.

Retsepti nimi sisestatakse automaatselt.

eest Valige andmestikvalige Minu andmestikud.
eest Andmestiku nimivalige study-detail-dataset.

eest Rolli nimi, Vali oma AWS-i identiteedi ja juurdepääsu haldamine (IAM) rolli koos DataBrew'ga kasutamiseks.
Vali Loo projekt.

Näete edusõnumit koos meie RDS-iga study_details_tbl 500 reaga tabel.

Pärast projekti avamist luuakse DataBrew interaktiivne seanss. DataBrew hangib näidisandmed teie proovivõtukonfiguratsiooni valiku põhjal.

Avage Amazon RDS-projekt ja koostage teisendusretsept

DataBrew interaktiivsel seansil saate oma andmeid puhastada ja normaliseerida, kasutades enam kui 250 sisseehitatud teisendust. Selles postituses kasutame DataBrew'i parimate tulemustega õpilaste tuvastamiseks, tehes mõned teisendused ja leides õpilased, kes said viimasel aastaeksamil hinde üle 60 või sellega võrdsed.

Esiteks kasutame DataBrew'i kõigi kolme RDS-tabeli ühendamiseks. Selleks teeme järgmised sammud:

Liikuge loodud projektile.
Vali Liitu.

eest Valige andmekogum, vali student-dataset.
Vali järgmine.

eest Valige liitumise tüüpvalige Vasak liitumine.
eest Ühenda võtmed, vali student_id eest Tabel A. ja tühistage valik student_id eest Tabel B.
Vali lõpp.

Korrake samme school-dataset põhinevad school_id võti.

Vali ÜHENDAB ühinema first_name ja last_name.
Sisestage eraldajaks tühik.
Vali kehtima.

Nüüd filtreerime read 60-st suurema või sellega võrdsete märgiste alusel ja lisame tingimuse retseptietapina.

Vali FILTER.

Esitage lähteveerg ja filtri tingimus ning valige kehtima.

Lõplikud andmed näitavad parimate tulemustega õpilaste andmeid, kelle hinded olid 60-st suuremad või sellega võrdsed.

Käivitage DataBrew retseptitöö kogu andmetel

Nüüd, kui oleme retsepti koostanud, saame luua ja käivitada DataBrew retseptitöö.

Valige projekti üksikasjade lehel Loo töökoht.
eest Töö nimisisenema top-performer-student.

Selle postituse puhul kasutame väljundvorminguna Parkett.

eest Faili tüüp, vali PÕRANDAD.
eest S3 asukoht, sisestage väljundkausta S3 tee.

eest Rolli nimi, valige olemasolev roll või looge uus.
Vali Looge ja käivitage töö.

Liikuge Tööturg lehele ja oodake top-performer-student töö lõpetada.

Vali sihtpunkt link Amazon S3-le navigeerimiseks, et pääseda tööväljundisse.

Käivitage Athena päring

Kinnitagem Athena koondtabeli väljund, käivitades lihtsa SELECT päringu. Järgmine ekraanipilt näitab väljundit.

Looge QuickSightis aruandeid

Nüüd teeme arhitektuuri viimase sammu, milleks on BI-aruannete loomine QuickSighti kaudu, luues ühenduse Athena koondtabeliga.

Valige QuickSighti konsoolil Athena teie andmeallikana.

Valige andmebaas ja kataloog, mis teil Athenas on.
Valige oma tabel.
Vali valima.

Nüüd saate oma väljundi visualiseerimiseks luua kiiraruande, nagu on näidatud järgmisel ekraanipildil.

Kui QuickSight kasutab SPICE salvestusruumi, peate pärast andmete värskendamise lõpetamise kohta teate saamist QuickSighti andmestikku värskendama. Parema jõudluse saavutamiseks soovitame kasutada SPICE salvestusruumi.

Koristage

Kustutage järgmised ressursid, mis võivad aja jooksul kulusid koguda.

RDS-i eksemplar
Retseptitöö tipptegija-õpilane
Teie S3 ämbrisse salvestatud töö väljund
Projektide ja töökohtade osana loodud IAM-i rollid
DataBrew projekt my-rds-proj ja sellega seotud retsept my-rds-proj-recipe
DataBrewi andmestikud

Järeldus

Selles postituses nägime, kuidas luua RDS-andmebaasi jaoks JDBC-ühendus. Õppisime, kuidas seda ühendust kasutada iga tabeli jaoks DataBrew andmestiku loomiseks ja kuidas seda ühendust mitu korda uuesti kasutada. Samuti nägime, kuidas saame tuua andmeid Amazon RDS-ist DataBrew'sse ning rakendada sujuvalt teisendusi ja käitada retseptitöid, mis värskendavad teisendatud andmeid BI-aruandluse jaoks.

Teave Autor

Dhiraj Thakur on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd AWS-i klientide ja partneritega, et anda juhiseid ettevõtte pilve kasutuselevõtu, migratsiooni ja strateegia kohta. Ta on kirglik tehnoloogia vastu ning talle meeldib analüütika ja AI/ML-ruumis ehitada ja katsetada.

Allikas: https://aws.amazon.com/blogs/big-data/data-preparation-using-an-amazon-rds-for-mysql-database-with-aws-glue-databrew/

Ajatempel: Juuli 14, 2021

Ajatempel: Detsember 16, 2021

Lubage SparkSQL-i andmetega manipuleerimine Amazon EMR-is Apache Rangeri abil

Allikaklaster:

AWS

Allikasõlm: 1877326

Ajatempel: Oktoober 5, 2021

Konfigureerige Amazon Athena ühekordse sisselogimise autentimine koos Azure AD-ga, mis on integreeritud asutusesisesesse AD-sse

Allikaklaster:

AWS

Allikasõlm: 1878492

Ajatempel: Oktoober 20, 2021

Armatuurlaudade kiire loomine Microsoft Power BI-s Amazon Athena abil

Allikaklaster:

AWS

Allikasõlm: 1858567

Ajatempel: Juuli 21, 2021

Andmete ettevalmistamine, kasutades Amazon RDS for MySQL andmebaasi koos AWS Glue DataBrew'ga

Taasavaldanud Platon

Kasutusjuhtumi ülevaade

Lahenduse ülevaade

Eeldused

Eellabori seadistamine

Looge Amazon RDS-ühendus

Looge oma andmekogumid

Looge projekt, kasutades andmekogumeid

Avage Amazon RDS-projekt ja koostage teisendusretsept

Käivitage DataBrew retseptitöö kogu andmetel

Käivitage Athena päring

Looge QuickSightis aruandeid

Koristage

Järeldus

Teave Autor

Veel alates AWS

Minge üle Snowflake'i Amazon Redshift Lake House'i arhitektuurile

Seadistage AWS Glue DataBrew jaoks CI/CD torujuhtmed, kasutades AWS-i arendaja tööriistu

Looge uusi SPICE-funktsioone kasutades Amazon QuickSightis suuremaid SPICE-andmekogumeid ja värskendage andmeid kiiremini

Amazon Kinesise andmevoogude automaatne skaleerimine Amazon CloudWatchi ja AWS Lambda abil

Vähendage kulusid ja suurendage Apache Sparki töökohtade ressursside kasutamist Kubernetesis Amazon EMR-iga Amazon EKS-is

Lubage SparkSQL-i andmetega manipuleerimine Amazon EMR-is Apache Rangeri abil

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto