Amazon SageMaker Data Wrangler on andmeteadlaste jaoks kiireim ja lihtsaim viis masinõppe (ML) rakenduste jaoks andmete ettevalmistamiseks. Data Wrangleri abil saate lihtsustada funktsioonide projekteerimise protsessi ja viia lõpule andmete ettevalmistamise töövoo kõik sammud, sealhulgas andmete valimise, puhastamise, uurimise ja visualiseerimise ühe visuaalse liidese kaudu. Data Wrangler on varustatud 300 sisseehitatud andmete teisendamise retseptiga, mida saate kasutada funktsioonide kiireks normaliseerimiseks, teisendamiseks ja kombineerimiseks. Data Wrangleri andmevaliku tööriistaga saate kiiresti valida andmeid erinevatest andmeallikatest, nt Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athenaja Amazoni punane nihe.
AWS järve kihistu Kontoülesed võimalused lihtsustavad mitme konto vahel hajutatud andmejärvede turvamist ja haldamist tsentraliseeritud lähenemisviisi kaudu, pakkudes Athena tabelitele täpset juurdepääsukontrolli.
Selles postituses näitame, kuidas lubada Data Wranglerile kontoülene juurdepääs, kasutades allikana Athenat ja keskse andmehaldusvõimalusena Lake Formationit. Nagu on näidatud järgmisel arhitektuuridiagrammil, on konto A andmejärve konto, mis sisaldab kõiki ETL-i konveieritest tuletatud ML-valmidusandmeid. Konto B on andmeteaduse konto, kus andmeteadlaste meeskond kasutab Data Wranglerit andmete teisenduste koostamiseks ja käitamiseks. Peame lubama Data Wrangleri kontoülesed load kontol B, et pääseda juurde konto A andmejärves asuvatele andmetabelitele Lake Formationi lubade kaudu.
Selle arhitektuuriga saavad andmeteadlased ja insenerid väljaspool Data Lake'i kontot juurdepääsu järve andmetele ja luua Data Wrangleri kaudu andmete teisendusi.
Enne seadistamisprotsessi sukeldumist veenduge, et kontode vahel jagatavad andmed on roomatud ja kataloogitud, nagu on kirjeldatud selles artiklis. pärast. Oletame, et see protsess on lõpule viidud ning andmebaasid ja tabelid on Lake Formationis juba olemas.
Selle lahenduse rakendamiseks on järgmised kõrgetasemelised sammud.
- Registreerige kontol A oma S3-salv, kasutades Lake Formationit, ja looge andmete jaoks vajalikud andmebaasid ja tabelid, kui neid pole.
- Lake Formationi administraator saab nüüd jagada andmekogumeid kontolt A teistele kontodele. Lake Formation jagab neid ressursse kasutades AWS-i ressursside juurdepääsu haldur (AWS RAM).
- Aktsepteerige kontol B ressursside jagamise taotlus, kasutades AWS RAM-i. Looge Lake Formationi kaudu jagatud tabeli jaoks kohaliku ressursi link ja looge kohalik andmebaas.
- Järgmiseks peate andma load SageMakeri stuudio täitmisrolli kontol B, et pääseda juurde jagatud tabelile ja eelmises etapis loodud ressursilingile.
- Rakenduses Data Wrangler kasutage kohalikku andmebaasi ja kontol B loodud ressursi linki, et teha Athena konnektori abil andmestik päringuid ja teha funktsioonide teisendusi.
Andmejärve seadistamine Lake Formationi abil
Alustamiseks looge kontol A keskne andmejärv. Saate juhtida juurdepääsu andmejärvele poliitikate ja õigustega ning määrata õigused andmebaasi, tabeli või veeru tasemel.
Seadistusprotsessi käivitamiseks lae alla Titanicu andmestiku .csv-faili ja laadige see üles oma S3 ämbrisse. Pärast faili üleslaadimist peate ämbri Lake Formationis registreerima. Lake Formationi load võimaldavad teie andmejärves olevatele andmetele täpset juurdepääsukontrolli.
Märge: Kui Titanicu andmestik on juba kataloogitud, võite alloleva registreerimistoimingu vahele jätta.
Registreerige oma S3 andmehoidla Lake Formationis
Andmesalve registreerimiseks toimige järgmiselt.
- Logige kontol A sisse Lake Formationi konsooli.
Kui kasutate Lake Formationit esimest korda, peate kontole lisama administraatorid.
- Navigeerimispaanil all Õigused, vali Administraatorid ja andmebaaside loojad.
- alla Data Lake'i administraatorid, vali Grant.
Nüüd lisate AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kasutajad või kontole A spetsiifilised rollid andmejärve administraatoritena.
- alla Andmejärve administraatorite haldamineJaoks IAM-i kasutajad ja rollid, valige oma kasutaja või roll (selle postituse jaoks kasutame
user-a
).
See võib olla ka konto A IAM-i administraatori roll.
- Vali Säästa.
- Veenduge
IAMAllowedPrincipals
grupp pole mõlema all loetletud Data Lake'i administraatorid ja andmebaas loojad.
Turvaseadete kohta lisateabe saamiseks vt Data Lake'i vaiketurvaseadete muutmine.
Järgmiseks peate registreerima S3 ämbri andmejärve asukohana.
- Lake Formationi konsoolil, all Registreeru ja neela, vali Andmejärvede asukohad.
Sellel lehel peaks kuvama loend S3-salvedest, mis on märgitud Lake Formationi andmejärve salvestusressurssidena. Üks S3-salv võib toimida paljude andmekogumite hoidlana või võite kasutada eraldi andmeallikate jaoks eraldi ämbreid.
- Vali Registreeri asukoht.
- eest Amazon S3 tee, sisestage oma ämbri tee.
- eest IAM roll¸ vali
AWSServiceRoleForLakeFormationDataAccess
. - Vali Registreeri asukoht.
Pärast seda sammu peaksite nägema oma S3 ämbrit all kuupäev järv kohad.
Looge andmebaas
See samm on valikuline. Jätke see samm vahele, kui Titanicu andmestik on juba roomatud ja kataloogitud. Andmekogumi andmebaas ja tabel peaksid andmejärves olema eelnevalt olemas.
Andmebaasi registreerimiseks tehke järgmised toimingud, kui seda pole olemas:
- Lake Formationi konsoolil, all Andmekataloog, vali Andmebaasid.
- Vali Loo andmebaas.
- eest Andmebaasi üksikasjadvalige andmebaas.
- eest Nimi, sisestage nimi (näiteks
titanic
). - eest asukoht, sisestage S3 andmejärve ämbri tee.
- Tühista valik Kasutage selle andmebaasi tabelite jaoks ainult IAM-i juurdepääsu juhtelemente.
- Vali Loo andmebaas.
- alla Meetmete, vali Õigused.
- Vali Vaata õigusi.
- Veenduge, et
IAMAllowedPrincipals
gruppi pole loendis.
Kui see on loendis, tühistage kindlasti juurdepääs sellele grupile.
Nüüd peaksite saama vaadata all loetletud loodud andmebaasi Andmebaasid.
Samuti peaksite nägema tabelit Lake Formationi konsoolis all kuupäev kataloog navigeerimispaanil all Tabelid. Selle demo puhul oletame, et tabeli nimi on titanic_datalake_bucket_as
nagu allpool näidatud.
Andke kontole A tabeliload
Kontole A tabeliõiguste andmiseks toimige järgmiselt.
- Logige sisse Lake Formationi konsooli kontoga A.
- alla Andmekataloog, vali Tabelid.
- Valige äsja loodud tabel.
- Kohta Meetmete menüü all Õigused, vali Grant.
- valima Minu konto.
- eest IAM-i kasutajad ja rollid, valige kasutajad või rollid, kellele soovite juurdepääsu anda (selle postituse jaoks valime
user-x
, teine kasutaja kontol A).
Saate määrata ka veerufiltri.
- eest Veerud, vali Kaasake veerud.
- eest Kaasake veerud, valige loendist viis esimest veergu
titanic_datalake_bucket_as
tabelis. - eest Tabeli õigusedvalige valima.
- Valis Grant.
- Ikka kontol A lülitage Athena konsoolile.
- Käivitage tabeli eelvaade.
Peaksite nägema lehe viit esimest veergu titanic_datalake_bucket_as
tabelit vastavalt eelmistes sammudes antud õigustele.
Oleme selle Athena etapi kaudu kinnitanud kohaliku juurdepääsu konto A andmejärve tabelile. Järgmisena anname juurdepääsu välisele kontole, meie puhul kontole B samale tabelile.
Andke kontole B tabeliload
See väline konto on konto, kus töötab Data Wrangler. Tabeliõiguste andmiseks toimige järgmiselt.
- Jäädes kontole A, kuupäeval Meetmete menüü all Õigused, vali Grant.
- valima Väline konto.
- eest AWS-i konto ID, sisestage konto B konto ID.
- Valige samad tabeli viis esimest veergu.
- eest Tabeli õigused ja Antavad loadvalige valima.
- Vali Grant.
Peate superloa tühistama IAMAllowedPrincipals
enne välise juurdepääsu andmist selle tabeli jaoks. Seda saate teha aadressil Meetmete menüü all Vaata õigusi, siis vali IAMallowedPrincipals Ja vali Tühista.
- AWS-i RAM-i konsoolil, endiselt kontol A, all Minu poolt jagatud, vali Jagatud ressursid.
Sellelt lehelt leiame sissekande Lake Formation.
- Lülitu kontole B.
- AWS RAM-i konsoolil, all Minuga jagatud, näete kontol A kutset Lake Formationilt.
- Nõustuge kutsega, valides Nõustuge ressursside jagamisega.
Kui olete sellega nõustunud, Ressursiosakud lehel peaksite nägema jagatud kirjet Lake Formation, mis sisaldab kataloogi, andmebaasi ja tabeliteavet.
Konto B Lake Formationi konsoolil leiate kontole A kuuluva jagatud tabeli Tabelid lehel. Kui te seda ei näe, saate ekraani värskendada ja ressurss peaks varsti ilmuma.
Selle jagatud tabeli kasutamiseks kontos B peate looma Lake Formationis konto B kohaliku andmebaasi.
- Lake Formationi konsoolil, all Andmebaasid, vali Loo andmebaase.
- Nimetage andmebaas
local_db
.
Järgmiseks peate Lake Formationi jagatud titanicu tabeli jaoks looma ressursilingi. Ressursilingid on andmekataloogi objektid, mis lingivad metaandmete andmebaaside ja tabelitega, tavaliselt muude AWS-i kontode jagatud andmebaaside ja tabelitega. Need aitavad võimaldada kontoülest juurdepääsu andmejärves olevatele andmetele.
- Tabeli üksikasjade lehel, aadressil Meetmete menüüst valige Loo ressursi link.
- eest Ressursi lingi nimi, sisestage nimi (näiteks
titanic_local
). - eest andmebaas, valige varem loodud kohalik andmebaas.
- Väärtused väärtusele Ühine laud ja Jagatud tabeli andmebaas peaksid ühtima konto A omadega ja olema automaatselt täidetud.
- eest Jagatud tabeli omaniku ID, valige konto A konto ID.
- Vali Looma.
- Navigeerimispaanil all Andmekataloog, vali Seaded.
- Veenduma Kasutage ainult IAM-i juurdepääsu juhtimist on uute andmebaaside ja tabelite jaoks keelatud.
Selle eesmärk on tagada, et Lake Formation haldab andmebaasi ja tabeli õigusi.
- Lülituge SageMakeri konsoolile.
- Stuudio juhtpaneeli jaotises Stuudio kokkuvõte, kopeerige täitmisrolli ARN.
- Peate andma sellele rollile õigused juurdepääsuks kohalikule andmebaasile, jagatud tabelile ja kohalikule tabelile, mis teil oli varem konto B Lake Formationis.
- Samuti peate sellele rollile lisama järgmise kohandatud poliitika. See reegel võimaldab Studiol juurdepääsu andmetele Lake Formationi kaudu ja võimaldab kontol B hankida päringute tegemiseks andmesektsioone
titanic
loodud tabelite andmestik:
- Lülitage tagasi Lake Formationi konsoolile.
- Siin peame andma SageMakeri täitmisrollile õigused, et pääseda juurde jagatud
titanic_datalake_bucket_as
tabelis.
See on tabel, mille jagasite kontoga A kontolt A AWS RAM-i kaudu.
- Konto B tabeli üksikasjade lehel Meetmete menüü all Õigused, vali Grant.
- Andke rollile juurdepääs tabelile ja viiele veerule.
- Lõpuks andke SageMakeri täitmisrolli load juurdepääsuks konto B kohalikule titanicu tabelile.
Kontoülene juurdepääs andmetele Studios
Selles viimases etapis peaksite olema valmis valideerima seni juurutatud samme, testides seda Data Wrangleri liideses.
- Kohta Import vahekaart, jaoks Andmete importimine, vali Amazonase Athena teie andmeallikana.
- eest Andmekataloog, vali AwsDataCatalog.
- eest andmebaas, valige kontol B loodud kohalik andmebaas (
local_db
).
Peaksite nägema kohalikku tabelit (titanic_local
) paremal paanil.
- Käivitage Athena päring, nagu on näidatud järgmisel ekraanipildil, et näha valitud veerge
titanic
andmestik, mille andsite SageMakeri täitmisrollile Lake Formationis (konto B). - Vali Impordi andmestik.
- eest Andmekogumi nimi, sisestage nimi (näiteks
titanic-dataset
). - Vali lisama.
See impordib titanicu andmestiku ja te peaksite nägema andmevoo lehte koos visuaalsete plokkidega Valmistama Tab.
Järeldus
Selles postituses näitasime, kuidas lubada Data Wranglerile kontoülene juurdepääs Lake Formationi ja AWS RAM-i abil. Seda metoodikat järgides saavad organisatsioonid lubada mitmel andmeteaduse ja insenerimeeskonnal juurdepääsu keskse andmejärve andmetele ning luua järjepidevalt funktsioonide torujuhtmeid ja teisendusretsepte. Data Wrangleri kohta lisateabe saamiseks vt Tutvustame Amazon SageMaker Data Wrangleri, visuaalset liidest masinõppe jaoks andmete ettevalmistamiseks ja Uurimuslik andmete analüüs, funktsioonide projekteerimine ja teie andmevoo operatiivne rakendamine teie ML-i torujuhtmesse Amazon SageMaker Data Wrangleri abil.
Proovige Data Wranglerit ja jagage kommentaaride jaotises oma tagasisidet ja küsimusi.
Autoritest
Rizwan Gilani on Amazon SageMakeri tarkvaraarenduse insener. Tema kirg seisneb masinõppe interaktiivsemaks ja laiemalt juurdepääsetavamaks muutmises. Enne seda töötas ta Amazon Alexas osana Alexa Communicationsi käivitanud tuumikmeeskonnast.
Phi Nguyen on AWS-i lahenduste arhitekt, kes aitab kliente nende pilveteekonnal, keskendudes eelkõige andmejärvele, analüütikale, semantikatehnoloogiatele ja masinõppele. Vabal ajal võib teda leida rattaga tööle sõitmas, poja jalgpallimeeskonda juhendamas või perega looduses jalutamas.
Arunprasath Shankar on tehisintellekti ja masinõppe (AI/ML) spetsialistlahenduste arhitekt koos AWS-iga, mis aitab globaalsetel klientidel oma tehisintellekti ja masinõppe lahendusi pilves tõhusalt skaleerida. Vabal ajal vaatab Arun meelsasti ulmefilme ja kuulab klassikalist muusikat.
- juurdepääs
- konto
- tegevus
- admin
- AI
- Alexa
- Amazon
- amazon alexa
- Amazon SageMaker
- analüüs
- analytics
- rakendused
- arhitektuur
- tehisintellekti
- Tehisintellekt ja masinõpe
- AWS
- ehitama
- Cloud
- Veerg
- kommentaarid
- Side
- Kliendid
- andmed
- juurdepääs andmetele
- andmete analüüs
- andmejärv
- andmeteadus
- andmebaas
- andmebaasid
- & Tarkvaraarendus
- insener
- Inseneriteadus
- Inseneride
- täitmine
- uurimine
- pere
- tunnusjoon
- FUNKTSIOONID
- esimene
- Esimest korda
- voog
- Keskenduma
- gif
- Globaalne
- valitsemistava
- Grupp
- Kuidas
- Kuidas
- HTTPS
- IAM
- Identity
- Kaasa arvatud
- info
- Intelligentsus
- interaktiivne
- IT
- õppimine
- Tase
- LINK
- nimekiri
- Kuulamine
- kohalik
- liising
- masinõpe
- Tegemine
- Vastama
- ML
- Filmid
- muusika
- NAVIGATSIOON
- Muu
- omanik
- Poliitika
- poliitika
- Eelvaade
- RAM
- Retseptid
- Registreerimine
- ressurss
- Vahendid
- jooks
- jooksmine
- salveitegija
- Skaala
- teadus
- teadlased
- Ekraan
- turvalisus
- väljavalitud
- semantika
- komplekt
- Jaga
- jagatud
- Aktsiad
- lihtne
- So
- jalgpall
- tarkvara
- tarkvaraarenduse
- Lahendused
- Stage
- alustatud
- väljavõte
- ladustamine
- salvestada
- Lüliti
- Tehnoloogiad
- Testimine
- aeg
- Transformation
- us
- Kasutajad
- vaade
- visualiseerimine
- jooksul
- Töö
- töövoog