Andmete ettevalmistamine, kasutades Amazon RDS for MySQL andmebaasi koos AWS Glue DataBrew'ga

Allikasõlm: 1858148

koos AWS Glue DataBrew, saavad andmeanalüütikud ja andmeteadlased hõlpsasti juurde pääseda ja visuaalselt uurida mis tahes andmeid kogu oma organisatsioonis otse oma Amazoni lihtne salvestusteenus (Amazon S3) Data Lake, Amazoni punane nihe andmeladu või Amazonase Aurora ja Amazoni relatsioonide andmebaasiteenus (Amazon RDS) andmebaasid. Saate valida enam kui 250 sisseehitatud funktsiooni hulgast andmete liitmiseks, pöördeks ja transponeerimiseks ilma koodi kirjutamata.

Nüüd, koos JDBC-juurdepääsetavate andmebaaside toega, toetab DataBrew ka täiendavaid andmesalve, sealhulgas PostgreSQL, MySQL, Oracle ja Microsoft SQL Server. Selles postituses kasutame DataBrew'i andmete puhastamiseks RDS-andmebaasist, puhastatud andmete salvestamiseks S3 andmejärves ja ärianalüüsi (BI) aruande koostamiseks.

Kasutusjuhtumi ülevaade

Kasutame kolme andmekogumit:

  • Kooli andmestik, mis sisaldab kooli üksikasju, nagu kooli ID ja kooli nimi
  • Õpilase andmestik, mis sisaldab õpilase üksikasju, nagu õpilase ID, nimi ja vanus
  • Õpilasuuring sisaldab üksikasjalikku andmestikku, mis sisaldab õpilase õppimisaega, tervist, riiki ja muud

Järgmine diagramm näitab nende tabelite seost.

Meie kasutusjuhtumi jaoks kogub neid andmeid küsitlusorganisatsioon pärast iga-aastast eksamit ja neid värskendatakse Amazon RDS MySQL-i jaoks kasutades Java skriptipõhist kasutajaliidese rakendust. Ühendame tabelid, et luua ühtne vaade ja luua koondandmed läbi andmete ettevalmistamise etappide seeria ning ärimeeskond kasutab väljundandmeid BI-aruannete koostamiseks.

Lahenduse ülevaade

Järgmine diagramm illustreerib meie lahenduse arhitektuuri. Kasutame andmete salvestamiseks Amazon RDS-i, andmete ettevalmistamiseks DataBrew'd, Amazonase Athena andmete analüüsimiseks standardse SQL-iga ja Amazon QuickSight äriaruandluse jaoks.

Töövoog sisaldab järgmisi samme:

  1. Looge RDS-i ja DataBrew projekti jaoks JDBC-ühendus. DataBrew teeb muudatuse, et leida parimate tulemustega õpilased kõigist analüüsimiseks mõeldud koolidest.
  2. DataBrew töö kirjutab lõpliku väljundi meie S3 väljundi ämbrisse.
  3. Pärast väljundandmete kirjutamist saame Athena abil luua nende peale välised tabelid, luua tabelilaused ja laadida partitsioonid MCSK REPAIR käskudega.
  4. Ärikasutajad saavad BI aruandluse jaoks kasutada QuickSighti, mis hangib andmeid Athena kaudu. Andmeanalüütikud saavad kasutada ka Athenat kogu värskendatud andmekogumi analüüsimiseks.

Eeldused

Selle lahenduse lõpuleviimiseks peaks teil olema AWS-i konto.

Eellabori seadistamine

Enne selle õpetuse alustamist veenduge, et teil on lahenduse osana vajalike ressursside loomiseks vajalikud õigused.

Meie kasutusjuhtumi puhul kasutame kolme näidisandmestikku. DDL-koodi ja andmefaile saate alla laadida aadressilt GitHub.

  1. Looge MySQL-i eksemplari jaoks RDS õpilaste terviseandmete jäädvustamiseks.
  2. Veenduge, et olete Amazon RDS-i jaoks seadistanud õige turberühma. Lisateabe saamiseks vt VPC seadistamine JDBC andmepoodidega ühenduse loomiseks.
  3. Loo kolm tabelit: student_tbl, study_details_tblja school_tbl. Andmebaasiobjektide loomiseks saate kasutada DDLsqli.
  4. Laadige üles student.csv, study_details.csvja school.csv failid vastavates tabelites. Sa võid kasutada student.sql, study_details.sqlja school.sql et sisestada andmed tabelitesse.

Looge Amazon RDS-ühendus

Amazon RDS-ühenduse loomiseks toimige järgmiselt.

  1. Valige DataBrew konsoolil Andmekogumid.
  2. Kohta Side valige vahekaart Loo ühendus.

  1. eest Ühenduse nimi, sisestage nimi (näiteks student_db-conn).
  2. eest Ühenduse tüüpvalige JDBC.
  3. eest Andmebaasi tüüp, vali MySQL.

  1. Esitage muud parameetrid, nagu RDS-i lõpp-punkt, port, andmebaasi nimi ja andmebaasi sisselogimismandaadid.

  1. aasta Võrguvalikud jaotises valige oma RDS-i eksemplari VPC, alamvõrk ja turberühm.
  2. Vali Loo ühendus.

Looge oma andmekogumid

Meil on Amazon RDS-is kolm tabelit: school_tbl, student_tblja study_details_tbl. Nende tabelite kasutamiseks peame esmalt looma iga tabeli jaoks andmekogumi.

Andmekogumite loomiseks tehke järgmised sammud (jutustame teid kooli andmestiku loomisel):

  1. Kohta Andmekogumid DataBrew konsooli lehel, valige Ühendage uus andmestik.

  1. eest Andmestiku nimi, sisestage kooli andmekogu.
  2. Vali ühendus sa lõid (AwsGlueDatabrew-student-db-conn).
  3. eest Tabeli nimi, sisenema school_tbl.
  4. Vali Loo andmestik.

  1. Korrake neid samme student_tbl ja study_details_tbl tabelid ja nimetage uus datasets student-dataset ja study-detail-dataset, respectively.

Kõik kolm andmekogumit on saidil kasutamiseks saadaval Andmekogumid lehel.

Looge projekt, kasutades andmekogumeid

DataBrew projekti loomiseks toimige järgmiselt.

  1. Valige DataBrew konsoolil Projektid.
  2. Vali Loo projekt.
  3. eest Projekti nimi, sisenema my-rds-proj.
  4. eest Lisatud retsept, vali Loo uus retsept.

Retsepti nimi sisestatakse automaatselt.

  1. eest Valige andmestikvalige Minu andmestikud.
  2. eest Andmestiku nimivalige study-detail-dataset.

  1. eest Rolli nimi, Vali oma AWS-i identiteedi ja juurdepääsu haldamine (IAM) rolli koos DataBrew'ga kasutamiseks.
  2. Vali Loo projekt.

Näete edusõnumit koos meie RDS-iga study_details_tbl 500 reaga tabel.

Pärast projekti avamist luuakse DataBrew interaktiivne seanss. DataBrew hangib näidisandmed teie proovivõtukonfiguratsiooni valiku põhjal.

Avage Amazon RDS-projekt ja koostage teisendusretsept

DataBrew interaktiivsel seansil saate oma andmeid puhastada ja normaliseerida, kasutades enam kui 250 sisseehitatud teisendust. Selles postituses kasutame DataBrew'i parimate tulemustega õpilaste tuvastamiseks, tehes mõned teisendused ja leides õpilased, kes said viimasel aastaeksamil hinde üle 60 või sellega võrdsed.

Esiteks kasutame DataBrew'i kõigi kolme RDS-tabeli ühendamiseks. Selleks teeme järgmised sammud:

  1. Liikuge loodud projektile.
  2. Vali Liitu.

  1. eest Valige andmekogum, vali student-dataset.
  2. Vali järgmine.

  1. eest Valige liitumise tüüpvalige Vasak liitumine.
  2. eest Ühenda võtmed, vali student_id eest Tabel A. ja tühistage valik student_id eest Tabel B.
  3. Vali lõpp.

Korrake samme school-dataset põhinevad school_id võti.

  1. Vali ÜHENDAB ühinema first_name ja last_name.
  2. Sisestage eraldajaks tühik.
  3. Vali kehtima.

Nüüd filtreerime read 60-st suurema või sellega võrdsete märgiste alusel ja lisame tingimuse retseptietapina.

  1. Vali FILTER.

  1. Esitage lähteveerg ja filtri tingimus ning valige kehtima.

Lõplikud andmed näitavad parimate tulemustega õpilaste andmeid, kelle hinded olid 60-st suuremad või sellega võrdsed.

Käivitage DataBrew retseptitöö kogu andmetel

Nüüd, kui oleme retsepti koostanud, saame luua ja käivitada DataBrew retseptitöö.

  1. Valige projekti üksikasjade lehel Loo töökoht.
  2. eest Töö nimisisenema top-performer-student.

Selle postituse puhul kasutame väljundvorminguna Parkett.

  1. eest Faili tüüp, vali PÕRANDAD.
  2. eest S3 asukoht, sisestage väljundkausta S3 tee.

  1. eest Rolli nimi, valige olemasolev roll või looge uus.
  2. Vali Looge ja käivitage töö.

  1. Liikuge Tööturg lehele ja oodake top-performer-student töö lõpetada.

  1. Vali sihtpunkt link Amazon S3-le navigeerimiseks, et pääseda tööväljundisse.

Käivitage Athena päring

Kinnitagem Athena koondtabeli väljund, käivitades lihtsa SELECT päringu. Järgmine ekraanipilt näitab väljundit.

Looge QuickSightis aruandeid

Nüüd teeme arhitektuuri viimase sammu, milleks on BI-aruannete loomine QuickSighti kaudu, luues ühenduse Athena koondtabeliga.

  1. Valige QuickSighti konsoolil Athena teie andmeallikana.

  1. Valige andmebaas ja kataloog, mis teil Athenas on.
  2. Valige oma tabel.
  3. Vali valima.

Nüüd saate oma väljundi visualiseerimiseks luua kiiraruande, nagu on näidatud järgmisel ekraanipildil.

Kui QuickSight kasutab SPICE salvestusruumi, peate pärast andmete värskendamise lõpetamise kohta teate saamist QuickSighti andmestikku värskendama. Parema jõudluse saavutamiseks soovitame kasutada SPICE salvestusruumi.

Koristage

Kustutage järgmised ressursid, mis võivad aja jooksul kulusid koguda.

  • RDS-i eksemplar
  • Retseptitöö tipptegija-õpilane
  • Teie S3 ämbrisse salvestatud töö väljund
  • Projektide ja töökohtade osana loodud IAM-i rollid
  • DataBrew projekt my-rds-proj ja sellega seotud retsept my-rds-proj-recipe
  • DataBrewi andmestikud

Järeldus

Selles postituses nägime, kuidas luua RDS-andmebaasi jaoks JDBC-ühendus. Õppisime, kuidas seda ühendust kasutada iga tabeli jaoks DataBrew andmestiku loomiseks ja kuidas seda ühendust mitu korda uuesti kasutada. Samuti nägime, kuidas saame tuua andmeid Amazon RDS-ist DataBrew'sse ning rakendada sujuvalt teisendusi ja käitada retseptitöid, mis värskendavad teisendatud andmeid BI-aruandluse jaoks.


Teave Autor

Dhiraj Thakur on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd AWS-i klientide ja partneritega, et anda juhiseid ettevõtte pilve kasutuselevõtu, migratsiooni ja strateegia kohta. Ta on kirglik tehnoloogia vastu ning talle meeldib analüütika ja AI/ML-ruumis ehitada ja katsetada.

Allikas: https://aws.amazon.com/blogs/big-data/data-preparation-using-an-amazon-rds-for-mysql-database-with-aws-glue-databrew/

Ajatempel:

Veel alates AWS