koos AWS Glue DataBrew, saavad andmeanalüütikud ja andmeteadlased hõlpsasti juurde pääseda ja visuaalselt uurida mis tahes andmeid kogu oma organisatsioonis otse oma Amazoni lihtne salvestusteenus (Amazon S3) Data Lake, Amazoni punane nihe andmeladu või Amazonase Aurora ja Amazoni relatsioonide andmebaasiteenus (Amazon RDS) andmebaasid. Saate valida enam kui 250 sisseehitatud funktsiooni hulgast andmete liitmiseks, pöördeks ja transponeerimiseks ilma koodi kirjutamata.
Nüüd, koos JDBC-juurdepääsetavate andmebaaside toega, toetab DataBrew ka täiendavaid andmesalve, sealhulgas PostgreSQL, MySQL, Oracle ja Microsoft SQL Server. Selles postituses kasutame DataBrew'i andmete puhastamiseks RDS-andmebaasist, puhastatud andmete salvestamiseks S3 andmejärves ja ärianalüüsi (BI) aruande koostamiseks.
Kasutusjuhtumi ülevaade
Kasutame kolme andmekogumit:
- Kooli andmestik, mis sisaldab kooli üksikasju, nagu kooli ID ja kooli nimi
- Õpilase andmestik, mis sisaldab õpilase üksikasju, nagu õpilase ID, nimi ja vanus
- Õpilasuuring sisaldab üksikasjalikku andmestikku, mis sisaldab õpilase õppimisaega, tervist, riiki ja muud
Järgmine diagramm näitab nende tabelite seost.
Meie kasutusjuhtumi jaoks kogub neid andmeid küsitlusorganisatsioon pärast iga-aastast eksamit ja neid värskendatakse Amazon RDS MySQL-i jaoks kasutades Java skriptipõhist kasutajaliidese rakendust. Ühendame tabelid, et luua ühtne vaade ja luua koondandmed läbi andmete ettevalmistamise etappide seeria ning ärimeeskond kasutab väljundandmeid BI-aruannete koostamiseks.
Lahenduse ülevaade
Järgmine diagramm illustreerib meie lahenduse arhitektuuri. Kasutame andmete salvestamiseks Amazon RDS-i, andmete ettevalmistamiseks DataBrew'd, Amazonase Athena andmete analüüsimiseks standardse SQL-iga ja Amazon QuickSight äriaruandluse jaoks.
Töövoog sisaldab järgmisi samme:
- Looge RDS-i ja DataBrew projekti jaoks JDBC-ühendus. DataBrew teeb muudatuse, et leida parimate tulemustega õpilased kõigist analüüsimiseks mõeldud koolidest.
- DataBrew töö kirjutab lõpliku väljundi meie S3 väljundi ämbrisse.
- Pärast väljundandmete kirjutamist saame Athena abil luua nende peale välised tabelid, luua tabelilaused ja laadida partitsioonid MCSK REPAIR käskudega.
- Ärikasutajad saavad BI aruandluse jaoks kasutada QuickSighti, mis hangib andmeid Athena kaudu. Andmeanalüütikud saavad kasutada ka Athenat kogu värskendatud andmekogumi analüüsimiseks.
Eeldused
Selle lahenduse lõpuleviimiseks peaks teil olema AWS-i konto.
Eellabori seadistamine
Enne selle õpetuse alustamist veenduge, et teil on lahenduse osana vajalike ressursside loomiseks vajalikud õigused.
Meie kasutusjuhtumi puhul kasutame kolme näidisandmestikku. DDL-koodi ja andmefaile saate alla laadida aadressilt GitHub.
- Looge MySQL-i eksemplari jaoks RDS õpilaste terviseandmete jäädvustamiseks.
- Veenduge, et olete Amazon RDS-i jaoks seadistanud õige turberühma. Lisateabe saamiseks vt VPC seadistamine JDBC andmepoodidega ühenduse loomiseks.
- Loo kolm tabelit:
student_tbl
,study_details_tbl
jaschool_tbl
. Andmebaasiobjektide loomiseks saate kasutada DDLsqli. - Laadige üles
student.csv
,study_details.csv
jaschool.csv
failid vastavates tabelites. Sa võid kasutadastudent.sql
,study_details.sql
jaschool.sql
et sisestada andmed tabelitesse.
Looge Amazon RDS-ühendus
Amazon RDS-ühenduse loomiseks toimige järgmiselt.
- Valige DataBrew konsoolil Andmekogumid.
- Kohta Side valige vahekaart Loo ühendus.
- eest Ühenduse nimi, sisestage nimi (näiteks
student_db-conn
). - eest Ühenduse tüüpvalige JDBC.
- eest Andmebaasi tüüp, vali MySQL.
- Esitage muud parameetrid, nagu RDS-i lõpp-punkt, port, andmebaasi nimi ja andmebaasi sisselogimismandaadid.
- aasta Võrguvalikud jaotises valige oma RDS-i eksemplari VPC, alamvõrk ja turberühm.
- Vali Loo ühendus.
Looge oma andmekogumid
Meil on Amazon RDS-is kolm tabelit: school_tbl
, student_tbl
ja study_details_tbl
. Nende tabelite kasutamiseks peame esmalt looma iga tabeli jaoks andmekogumi.
Andmekogumite loomiseks tehke järgmised sammud (jutustame teid kooli andmestiku loomisel):
- Kohta Andmekogumid DataBrew konsooli lehel, valige Ühendage uus andmestik.
- eest Andmestiku nimi, sisestage kooli andmekogu.
- Vali ühendus sa lõid (
AwsGlueDatabrew-student-db-conn
). - eest Tabeli nimi, sisenema
school_tbl
. - Vali Loo andmestik.
- Korrake neid samme
student_tbl
jastudy_details_tbl
tabelid ja nimetage uusdatasets student-dataset
jastudy-detail-dataset, respectively
.
Kõik kolm andmekogumit on saidil kasutamiseks saadaval Andmekogumid lehel.
Looge projekt, kasutades andmekogumeid
DataBrew projekti loomiseks toimige järgmiselt.
- Valige DataBrew konsoolil Projektid.
- Vali Loo projekt.
- eest Projekti nimi, sisenema
my-rds-proj
. - eest Lisatud retsept, vali Loo uus retsept.
Retsepti nimi sisestatakse automaatselt.
- eest Valige andmestikvalige Minu andmestikud.
- eest Andmestiku nimivalige
study-detail-dataset
.
- eest Rolli nimi, Vali oma AWS-i identiteedi ja juurdepääsu haldamine (IAM) rolli koos DataBrew'ga kasutamiseks.
- Vali Loo projekt.
Näete edusõnumit koos meie RDS-iga study_details_tbl
500 reaga tabel.
Pärast projekti avamist luuakse DataBrew interaktiivne seanss. DataBrew hangib näidisandmed teie proovivõtukonfiguratsiooni valiku põhjal.
Avage Amazon RDS-projekt ja koostage teisendusretsept
DataBrew interaktiivsel seansil saate oma andmeid puhastada ja normaliseerida, kasutades enam kui 250 sisseehitatud teisendust. Selles postituses kasutame DataBrew'i parimate tulemustega õpilaste tuvastamiseks, tehes mõned teisendused ja leides õpilased, kes said viimasel aastaeksamil hinde üle 60 või sellega võrdsed.
Esiteks kasutame DataBrew'i kõigi kolme RDS-tabeli ühendamiseks. Selleks teeme järgmised sammud:
- Liikuge loodud projektile.
- Vali Liitu.
- eest Valige andmekogum, vali
student-dataset
. - Vali järgmine.
- eest Valige liitumise tüüpvalige Vasak liitumine.
- eest Ühenda võtmed, vali
student_id
eest Tabel A. ja tühistage valikstudent_id
eest Tabel B. - Vali lõpp.
Korrake samme school-dataset
põhinevad school_id
võti.
- Vali ÜHENDAB ühinema
first_name
jalast_name
. - Sisestage eraldajaks tühik.
- Vali kehtima.
Nüüd filtreerime read 60-st suurema või sellega võrdsete märgiste alusel ja lisame tingimuse retseptietapina.
- Vali FILTER.
- Esitage lähteveerg ja filtri tingimus ning valige kehtima.
Lõplikud andmed näitavad parimate tulemustega õpilaste andmeid, kelle hinded olid 60-st suuremad või sellega võrdsed.
Käivitage DataBrew retseptitöö kogu andmetel
Nüüd, kui oleme retsepti koostanud, saame luua ja käivitada DataBrew retseptitöö.
- Valige projekti üksikasjade lehel Loo töökoht.
- eest Töö nimisisenema
top-performer-student
.
Selle postituse puhul kasutame väljundvorminguna Parkett.
- eest Faili tüüp, vali PÕRANDAD.
- eest S3 asukoht, sisestage väljundkausta S3 tee.
- eest Rolli nimi, valige olemasolev roll või looge uus.
- Vali Looge ja käivitage töö.
- Liikuge Tööturg lehele ja oodake
top-performer-student
töö lõpetada.
- Vali sihtpunkt link Amazon S3-le navigeerimiseks, et pääseda tööväljundisse.
Käivitage Athena päring
Kinnitagem Athena koondtabeli väljund, käivitades lihtsa SELECT päringu. Järgmine ekraanipilt näitab väljundit.
Looge QuickSightis aruandeid
Nüüd teeme arhitektuuri viimase sammu, milleks on BI-aruannete loomine QuickSighti kaudu, luues ühenduse Athena koondtabeliga.
- Valige QuickSighti konsoolil Athena teie andmeallikana.
- Valige andmebaas ja kataloog, mis teil Athenas on.
- Valige oma tabel.
- Vali valima.
Nüüd saate oma väljundi visualiseerimiseks luua kiiraruande, nagu on näidatud järgmisel ekraanipildil.
Kui QuickSight kasutab SPICE salvestusruumi, peate pärast andmete värskendamise lõpetamise kohta teate saamist QuickSighti andmestikku värskendama. Parema jõudluse saavutamiseks soovitame kasutada SPICE salvestusruumi.
Koristage
Kustutage järgmised ressursid, mis võivad aja jooksul kulusid koguda.
- RDS-i eksemplar
- Retseptitöö tipptegija-õpilane
- Teie S3 ämbrisse salvestatud töö väljund
- Projektide ja töökohtade osana loodud IAM-i rollid
- DataBrew projekt
my-rds-proj
ja sellega seotud retseptmy-rds-proj-recipe
- DataBrewi andmestikud
Järeldus
Selles postituses nägime, kuidas luua RDS-andmebaasi jaoks JDBC-ühendus. Õppisime, kuidas seda ühendust kasutada iga tabeli jaoks DataBrew andmestiku loomiseks ja kuidas seda ühendust mitu korda uuesti kasutada. Samuti nägime, kuidas saame tuua andmeid Amazon RDS-ist DataBrew'sse ning rakendada sujuvalt teisendusi ja käitada retseptitöid, mis värskendavad teisendatud andmeid BI-aruandluse jaoks.
Teave Autor
Dhiraj Thakur on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd AWS-i klientide ja partneritega, et anda juhiseid ettevõtte pilve kasutuselevõtu, migratsiooni ja strateegia kohta. Ta on kirglik tehnoloogia vastu ning talle meeldib analüütika ja AI/ML-ruumis ehitada ja katsetada.
- 100
- 11
- 7
- juurdepääs
- Täiendavad lisad
- Vastuvõtmine
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazon Web Services
- analüüs
- analytics
- taotlus
- arhitektuur
- AWS
- ehitama
- Ehitus
- äri
- ärianalüüsi
- Cloud
- pilve adopteerimine
- kood
- Veerg
- loomine
- volikiri
- Kliendid
- andmed
- andmete analüüs
- andmejärv
- andmekogus
- andmebaas
- andmebaasid
- Lõpp-punkt
- ettevõte
- esimene
- formaat
- täis
- Grupp
- Tervis
- Kuidas
- Kuidas
- HTTPS
- IAM
- identifitseerima
- Identity
- Kaasa arvatud
- info
- Intelligentsus
- interaktiivne
- IT
- Java
- töö
- Tööturg
- liituma
- Võti
- õppinud
- koormus
- Microsoft
- teade
- Valikud
- oraakel
- Muu
- partnerid
- jõudlus
- Pöördetelg
- projekt
- projektid
- retsept
- aru
- Aruanded
- Vahendid
- jooks
- jooksmine
- Kool
- Koolid
- teadlased
- turvalisus
- Seeria
- Teenused
- komplekt
- lihtne
- Lahendused
- Ruum
- SQL
- ladustamine
- salvestada
- kauplustes
- Strateegia
- õpilane
- Uuring
- edu
- toetama
- Toetab
- Uuring
- Tehnoloogia
- Allikas
- aeg
- ülemine
- Transformation
- juhendaja
- Uudised
- Kasutajad
- väärtus
- vaade
- ootama
- Ladu
- web
- veebiteenused
- WHO
- töövoog
- töötab
- kirjutamine