Amazon SageMaker Data Wrangler je najhitrejši in najpreprostejši način za podatkovne znanstvenike, da pripravijo podatke za aplikacije strojnega učenja (ML). Z Data Wranglerjem lahko poenostavite proces inženiringa funkcij in dokončate vsak korak delovnega toka priprave podatkov, vključno z izbiro podatkov, čiščenjem, raziskovanjem in vizualizacijo prek enega samega vizualnega vmesnika. Data Wrangler ima 300 vgrajenih receptov za transformacijo podatkov, ki jih lahko uporabite za hitro normalizacijo, transformacijo in kombiniranje funkcij. Z orodjem za izbiro podatkov v Data Wranglerju lahko hitro izberete podatke iz različnih virov podatkov, kot npr Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atenain Amazon RedShift.
Oblikovanje jezera AWS zmožnosti med računi poenostavljajo varovanje in upravljanje porazdeljenih podatkovnih jezer v več računih prek centraliziranega pristopa, ki zagotavlja natančen nadzor dostopa do tabel Athena.
V tej objavi prikazujemo, kako omogočiti dostop med računi za Data Wrangler z uporabo Athene kot vira in Lake Formation kot osrednje zmožnosti upravljanja podatkov. Kot je prikazano v naslednjem diagramu arhitekture, je račun A račun podatkovnega jezera, ki vsebuje vse podatke, pripravljene za ML, izpeljane iz cevovodov ETL. Račun B je račun podatkovne znanosti, kjer skupina podatkovnih znanstvenikov uporablja Data Wrangler za zbiranje in izvajanje pretvorb podatkov. Omogočiti moramo dovoljenja za več računov za Data Wrangler v računu B za dostop do podatkovnih tabel v podatkovnem jezeru računa A prek dovoljenj Lake Formation.
S to arhitekturo lahko podatkovni znanstveniki in inženirji zunaj računa podatkovnega jezera dostopajo do podatkov iz jezera in ustvarjajo transformacije podatkov prek Data Wranglerja.
Preden se poglobite v postopek namestitve, zagotovite, da so podatki, ki bodo v skupni rabi med računi, preiskani in katalogizirani, kot je opisano v tem objava. Predpostavimo, da je ta proces zaključen in podatkovne baze in tabele že obstajajo v jezerski formaciji.
Sledijo koraki na visoki ravni za implementacijo te rešitve:
- V računu A registrirajte svoje vedro S3 z uporabo Lake Formation in ustvarite potrebne baze podatkov in tabele za podatke, če ne obstajajo.
- Skrbnik Lake Formation lahko zdaj deli nabore podatkov iz računa A z drugimi računi. Lake Formation deli te vire z uporabo Upravitelj dostopa do virov AWS (AWS RAM).
- V računu B sprejmite zahtevo za skupno rabo vira z uporabo AWS RAM. Ustvarite povezavo lokalnega vira za skupno tabelo prek Lake Formation in ustvarite lokalno bazo podatkov.
- Nato morate podeliti dovoljenja za Studio SageMaker izvršilno vlogo v računu B za dostop do tabele v skupni rabi in povezave do vira, ki ste jo ustvarili v prejšnjem koraku.
- V Data Wranglerju uporabite lokalno zbirko podatkov in povezavo do vira, ki ste jo ustvarili v računu B, da poizvedujete po naboru podatkov z uporabo konektorja Athena in izvedete transformacije funkcij.
Nastavitev podatkovnega jezera z uporabo Lake Formation
Za začetek ustvarite osrednje podatkovno jezero v računu A. Dostop do podatkovnega jezera lahko nadzorujete s pravilniki in dovoljenji ter določite dovoljenja na ravni baze podatkov, tabele ali stolpca.
Če želite zagnati postopek namestitve, prenesi datoteko titanic dataset .csv in jo naložite v svoje vedro S3. Ko naložite datoteko, morate vedro registrirati v Lake Formation. Dovoljenja Lake Formation omogočajo natančen nadzor dostopa do podatkov v vašem podatkovnem jezeru.
Opomba: Če je nabor podatkov Titanic že katalogiziran, lahko spodnji korak registracije preskočite.
Registrirajte svojo shrambo podatkov S3 v Lake Formation
Če želite registrirati svojo shrambo podatkov, izvedite naslednje korake:
- V računu A se prijavite v konzolo Lake Formation.
Če prvič dostopate do Lake Formation, morate v račun dodati skrbnike.
- V podoknu za krmarjenje pod Dovoljenja, izberite Administratorji in ustvarjalci baz podatkov.
- Pod Skrbniki podatkovnega jezera, izberite Grant.
Zdaj dodajate AWS upravljanje identitete in dostopa (IAM) uporabniki ali vloge, specifične za račun A kot skrbniki podatkovnega jezera.
- Pod Upravljanje skrbnikov podatkovnega jezeraZa Uporabniki in vloge IAM, izberite svojega uporabnika ali vlogo (za to objavo uporabljamo
user-a
).
To je lahko tudi skrbniška vloga IAM računa A.
- Izberite Shrani.
- Prepričajte se, da
IAMAllowedPrincipals
skupina ni navedena pod obema Skrbniki podatkovnega jezera in Baze podatkov Ustvarjalci.
Za več informacij o varnostnih nastavitvah glejte Spreminjanje privzetih varnostnih nastavitev za vaše podatkovno jezero.
Nato morate vedro S3 registrirati kot lokacijo podatkovnega jezera.
- Na konzoli Lake Formation pod Registrirajte se in zaužijte, izberite Lokacije podatkovnega jezera.
Na tej strani bi moral biti prikazan seznam veder S3, ki so označeni kot viri za shranjevanje podatkovnega jezera za Lake Formation. Eno vedro S3 lahko deluje kot repozitorij za številne nabore podatkov ali pa uporabite ločena vedra za ločene vire podatkov.
- Izberite Registriraj lokacijo.
- za Pot Amazon S3, vnesite pot za svoje vedro.
- za Vloga IAM¸ izberite
AWSServiceRoleForLakeFormationDataAccess
. - Izberite Registriraj lokacijo.
Po tem koraku bi morali spodaj videti svoje vedro S3 datum Jezero Lokacije.
Ustvari bazo podatkov
Ta korak ni obvezen. Preskočite ta korak, če je bil nabor podatkov Titanic že pajkan in katalogiziran. Baza podatkov in tabela za nabor podatkov morata že obstajati v podatkovnem jezeru.
Izvedite naslednje korake za registracijo baze podatkov, če ta ne obstaja:
- Na konzoli Lake Formation pod Katalog podatkov, izberite Baze podatkov.
- Izberite Ustvarite bazo podatkov.
- za Podrobnosti o bazi podatkovtako, da izberete Baze podatkov.
- za Ime, vnesite ime (npr.
titanic
). - za lokacija, vnesite pot vedra podatkovnega jezera S3.
- Prekliči izbiro Za tabele v tej zbirki podatkov uporabite samo nadzor dostopa IAM.
- Izberite Ustvarite bazo podatkov.
- Pod Proces, izberite Dovoljenja.
- Izberite Ogled dovoljenj.
- Poskrbite, da je
IAMAllowedPrincipals
skupina ni navedena.
Če je navedena, poskrbite, da boste preklicali dostop do te skupine.
Zdaj bi si morali ogledati ustvarjeno zbirko podatkov, navedeno spodaj Baze podatkov.
Prav tako bi morali videti tabelo v konzoli Lake Formation pod datum Katalog v navigacijskem podoknu pod Mize. Za to predstavitev predpostavimo, da je ime tabele titanic_datalake_bucket_as
kot je prikazano spodaj.
Računu A podelite dovoljenja za tabele
Če želite dodeliti dovoljenja tabele za račun A, izvedite naslednje korake:
- Prijavite se v konzolo Lake Formation z računom A.
- Pod Katalog podatkov, izberite Mize.
- Izberite novo ustvarjeno tabelo.
- o Proces meni, pod Dovoljenja, izberite Grant.
- Izberite Moj račun.
- za Uporabniki in vloge IAM, izberite uporabnike ali vloge, ki jim želite omogočiti dostop (za to objavo izberemo mi
user-x
, drugega uporabnika znotraj računa A).
Nastavite lahko tudi filter stolpcev.
- za Stolpci, izberite Vključite stolpce.
- za Vključite stolpce, izberite prvih pet stolpcev iz
titanic_datalake_bucket_as
miza. - za Dovoljenja za tabeletako, da izberete Izberite.
- Izbrala Grant.
- Še vedno v računu A, preklopite na konzolo Athena.
- Zaženite predogled tabele.
Morali bi videti prvih pet stolpcev titanic_datalake_bucket_as
tabelo glede na dovoljenja, podeljena v prejšnjih korakih.
Prek tega koraka Athena smo potrdili lokalni dostop do tabele podatkovnega jezera znotraj računa A. Nato odobrimo dostop zunanjemu računu, v našem primeru računu B za isto tabelo.
Računu B dodelite dovoljenja za tabele
Ta zunanji račun je račun, ki izvaja Data Wrangler. Če želite podeliti dovoljenja za tabele, izvedite naslednje korake:
- Ostati znotraj računa A, na Proces meni, pod Dovoljenja, izberite Grant.
- Izberite Zunanji račun.
- za ID računa AWS, vnesite ID računa računa B.
- Izberite istih prvih pet stolpcev tabele.
- za Dovoljenja za tabele in Dovoljenja, ki jih je mogoče dodelititako, da izberete Izberite.
- Izberite Grant.
Morate preklicati dovoljenje Super iz IAMAllowedPrincipals
skupino za to tabelo, preden ji dodelite zunanji dostop. To lahko storite na Proces meni pod Ogled dovoljenj, nato izberite IAMAllowedPrincipals In izberite Prekliči.
- Na konzoli AWS RAM, še vedno v računu A, pod Delil jaz, izberite Skupni viri.
Na tej strani lahko najdemo vnos Lake Formation.
- Preklopite na račun B.
- Na konzoli AWS RAM pod Deljeno z mano, vidite povabilo Lake Formation v računu A.
- Sprejmite povabilo z izbiro Sprejmi skupno rabo virov.
Ko ga sprejmete, na Deleži virov strani, bi morali videti vnos v skupni rabi Lake Formation, ki vsebuje informacije o katalogu, zbirki podatkov in tabeli.
Na konzoli Lake Formation v računu B lahko najdete tabelo v skupni rabi, ki je v lasti računa A na Mize strani. Če ga ne vidite, lahko osvežite zaslon in vir bi se moral kmalu prikazati.
Če želite uporabiti to tabelo v skupni rabi znotraj računa B, morate ustvariti bazo podatkov, lokalno za račun B v Lake Formation.
- Na konzoli Lake Formation pod Baze podatkov, izberite Ustvari baze podatkov.
- Poimenujte zbirko podatkov
local_db
.
Nato morate za skupno mizo Titanic v Lake Formation ustvariti povezavo do vira. Povezave virov so predmeti kataloga podatkov, ki se povezujejo z bazami podatkov in tabelami metapodatkov, običajno z zbirkami podatkov in tabelami v skupni rabi iz drugih računov AWS. Pomagajo omogočiti navzkrižni dostop do podatkov v podatkovnem jezeru.
- Na strani s podrobnostmi tabele, na Proces izberite meni Ustvari povezavo do vira.
- za Ime povezave do vira, vnesite ime (npr.
titanic_local
). - za Baze podatkov, izberite lokalno bazo podatkov, ki ste jo ustvarili prej.
- Vrednosti za Skupna miza in Baza podatkov skupne tabele se morajo ujemati s tistimi v računu A in se samodejno izpolniti.
- za ID lastnika skupne tabele, izberite ID računa računa A.
- Izberite ustvarjanje.
- V podoknu za krmarjenje pod Katalog podatkov, izberite Nastavitve.
- Prepričajte se, da Uporabljajte samo nadzor dostopa IAM je onemogočen za nove zbirke podatkov in tabele.
S tem se zagotovi, da Lake Formation upravlja dovoljenja baze podatkov in tabel.
- Preklopite na konzolo SageMaker.
- Na nadzorni plošči Studio pod Studio Povzetek, kopirajte ARN vloge izvajanja.
- Tej vlogi morate podeliti dovoljenja za dostop do lokalne baze podatkov, tabele v skupni rabi in lokalne tabele, ki ste jo prej imeli v formaciji jezera računa B.
- Tej vlogi morate priložiti tudi naslednji pravilnik po meri. Ta pravilnik Studiu dovoljuje dostop do podatkov prek Lake Formation in računu B omogoča pridobivanje podatkovnih particij za poizvedovanje
titanic
nabor podatkov iz ustvarjenih tabel:
- Preklopite nazaj na konzolo Lake Formation.
- Tukaj moramo podeliti dovoljenja za izvršilno vlogo SageMaker za dostop do skupne rabe
titanic_datalake_bucket_as
miza.
To je tabela, ki ste jo dali v skupno rabo z računom B iz računa A prek AWS RAM.
- V računu B, na strani s podrobnostmi tabele, na Proces meni, pod Dovoljenja, izberite Grant.
- Vlogi dodelite dostop do tabele in petih stolpcev.
- Nazadnje dodelite dovoljenja izvajalski vlogi SageMaker za dostop do lokalne titanske tabele v računu B.
Dostop do podatkov med računi v Studiu
V tej zadnji fazi bi morali biti pripravljeni na preverjanje doslej uporabljenih korakov s testiranjem v vmesniku Data Wrangler.
- o uvoz zavihek, za Uvozi podatke, izberite Amazonska Atena kot vaš vir podatkov.
- za Katalog podatkov, izberite AwsDataCatalog.
- za Baze podatkov, izberite lokalno bazo podatkov, ki ste jo ustvarili v računu B (
local_db
).
Morali bi videti lokalno tabelo (titanic_local
) v desnem podoknu.
- Zaženite poizvedbo Athena, kot je prikazano na naslednjem posnetku zaslona, da vidite izbrane stolpce v
titanic
nabor podatkov, ki ste ga dodelili izvršilni vlogi SageMaker v Lake Formation (račun B). - Izberite Uvozi nabor podatkov.
- za Ime nabora podatkov, vnesite ime (npr.
titanic-dataset
). - Izberite Dodaj.
S tem se uvozi titanski nabor podatkov in videli bi morali stran pretoka podatkov z vizualnimi bloki na Pripravimo tab.
zaključek
V tej objavi smo pokazali, kako omogočiti dostop med računi za Data Wrangler z uporabo Lake Formation in AWS RAM. Po tej metodologiji lahko organizacije dovolijo več skupinam podatkovne znanosti in inženiringa, da dostopajo do podatkov iz osrednjega podatkovnega jezera in dosledno gradijo cevovode funkcij in recepte za transformacijo. Za več informacij o Data Wranglerju glejte Predstavljamo Amazon SageMaker Data Wrangler, vizualni vmesnik za pripravo podatkov za strojno učenje in Raziskovalna analiza podatkov, načrtovanje funkcij in operacionalizacija pretoka podatkov v vaš cevovod ML z Amazon SageMaker Data Wrangler.
Preizkusite Data Wrangler in delite svoje povratne informacije in vprašanja v razdelku za komentarje.
O avtorjih
Rizvan Gilani je inženir za razvoj programske opreme pri Amazon SageMaker. Njegova strast je narediti strojno učenje bolj interaktivno in dostopno v velikem obsegu. Pred tem je delal na Amazon Alexa kot del osrednje ekipe, ki je lansirala Alexa Communications.
Phi Nguyen je arhitekt rešitev pri AWS, ki strankam pomaga pri njihovem potovanju v oblak s posebnim poudarkom na podatkovnem jezeru, analitiki, semantičnih tehnologijah in strojnem učenju. V prostem času ga lahko najdete s kolesom v službo, trenira sinovo nogometno ekipo ali uživa v sprehodu v naravi z družino.
Arunprasath Shankar je arhitekt za umetno inteligenco in strojno učenje (AI / ML) Specialist Solutions Architect z AWS, ki svetovnim strankam pomaga, da svoje rešitve AI učinkovito in uspešno lestvijo v oblaku. V prostem času Arun rad gleda znanstvenofantastične filme in posluša klasično glasbo.
- dostop
- Račun
- Ukrep
- admin
- AI
- Alexa
- Amazon
- amazon alexa
- Amazon SageMaker
- Analiza
- analitika
- aplikacije
- Arhitektura
- Umetna inteligenca
- Umetna inteligenca in strojno učenje
- AWS
- izgradnjo
- Cloud
- Stolpec
- komentarji
- Communications
- Stranke, ki so
- datum
- dostop do podatkov
- Analiza podatkov
- Data jezero
- znanost o podatkih
- Baze podatkov
- baze podatkov
- Razvoj
- inženir
- Inženiring
- Inženirji
- izvedba
- raziskovanje
- družina
- Feature
- Lastnosti
- prva
- prvič
- Pretok
- Osredotočite
- gif
- Globalno
- upravljanje
- skupina
- Kako
- Kako
- HTTPS
- IAM
- identiteta
- Vključno
- Podatki
- Intelligence
- interaktivno
- IT
- učenje
- Stopnja
- LINK
- Seznam
- Poslušanje
- lokalna
- kraj aktivnosti
- strojno učenje
- Izdelava
- Stave
- ML
- filmi
- Glasba
- ostalo
- Ostalo
- Lastnik
- politike
- politika
- predogled
- RAM
- Recepti
- registracija
- vir
- viri
- Run
- tek
- sagemaker
- Lestvica
- Znanost
- Znanstveniki
- Zaslon
- varnost
- izbran
- semantika
- nastavite
- Delite s prijatelji, znanci, družino in partnerji :-)
- deli
- Delnice
- Enostavno
- So
- Soccer
- Software
- Razvoj programske opreme
- rešitve
- Stage
- začel
- Izjava
- shranjevanje
- trgovina
- Preklop
- Tehnologije
- Testiranje
- čas
- Preoblikovanje
- us
- Uporabniki
- Poglej
- vizualizacija
- v
- delo
- potek dela