Amazon SageMaker Data Wrangler on nopein ja helpoin tapa datatieteilijöille valmistella dataa koneoppimissovelluksiin (ML). Data Wranglerin avulla voit yksinkertaistaa ominaisuuksien suunnittelua ja suorittaa jokaisen tietojen valmistelutyön vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin yhden visuaalisen käyttöliittymän kautta. Data Wrangler sisältää 300 sisäänrakennettua tiedonmuunnosreseptiä, joiden avulla voit nopeasti normalisoida, muuntaa ja yhdistää ominaisuuksia. Data Wranglerin tiedonvalintatyökalulla voit valita nopeasti tietoja eri tietolähteistä, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athenaja Amazonin punainen siirto.
AWS-järvien muodostuminen tilien väliset ominaisuudet yksinkertaistavat hajautettujen datajärvien suojaamista ja hallintaa useiden tilien kesken keskitetyn lähestymistavan avulla, mikä mahdollistaa Athena-taulukoiden tarkan pääsyn hallinnan.
Tässä viestissä näytämme, kuinka mahdollistaa tilien välinen käyttö Data Wranglerille käyttämällä Athenaa lähteenä ja Lake Formationia keskeisenä tiedonhallintaominaisuusna. Kuten seuraavassa arkkitehtuurikaaviossa näkyy, tili A on datajärven tili, joka sisältää kaikki ETL-putkista johdetut ML-valmiit tiedot. Tili B on datatieteen tili, jossa datatieteilijöiden ryhmä käyttää Data Wrangleria datamuunnosten kokoamiseen ja suorittamiseen. Meidän on otettava käyttöön tilien väliset käyttöoikeudet tilin B Data Wranglerille voidakseen käyttää tilin A datajärvessä olevia tietotaulukoita Lake Formation -käyttöoikeuksien kautta.
Tämän arkkitehtuurin avulla datajärven tilin ulkopuoliset datatutkijat ja insinöörit voivat käyttää järven tietoja ja luoda datamuunnoksia Data Wranglerin kautta.
Ennen kuin aloitat määritysprosessin, varmista, että tilien kesken jaettavat tiedot on indeksoitu ja luetteloitu tässä kuvatulla tavalla. posti. Oletetaan, että tämä prosessi on saatu päätökseen ja tietokannat ja taulukot ovat jo olemassa Lake Formationissa.
Seuraavat ovat korkean tason vaiheet tämän ratkaisun toteuttamiseksi:
- Rekisteröi tilillä A S3-ämpäri Lake Formationilla ja luo tarvittavat tietokannat ja taulukot tiedoille, jos niitä ei ole.
- Lake Formationin järjestelmänvalvoja voi nyt jakaa tietojoukkoja tililtä A muille tileille. Lake Formation jakaa nämä resurssit käyttämällä AWS Resource Access Manager (AWS RAM).
- Hyväksy tilillä B resurssien jakamispyyntö käyttämällä AWS-RAM-muistia. Luo paikallinen resurssilinkki jaettuun taulukkoon Lake Formationin kautta ja luo paikallinen tietokanta.
- Seuraavaksi sinun on myönnettävä käyttöoikeudet SageMaker Studio suoritusrooli tilillä B päästäksesi jaettuun taulukkoon ja edellisessä vaiheessa luomaasi resurssilinkkiin.
- Käytä Data Wranglerissa paikallista tietokantaa ja tilillä B luomaasi resurssilinkkiä kyselyn tekemiseen tietojoukosta Athena-liittimen avulla ja ominaisuusmuunnosten suorittamiseen.
Datajärven määritys Lake Formationin avulla
Aloita luomalla keskustietojärvi tilille A. Voit hallita datajärven käyttöä käytännöillä ja käyttöoikeuksilla ja määrittää käyttöoikeuksia tietokanta-, taulukko- tai saraketasolla.
Aloita asennusprosessi download titanic-datajoukon .csv-tiedosto ja lähetä se S3-ämpäriisi. Kun olet ladannut tiedoston, sinun on rekisteröitävä ämpäri Lake Formationissa. Lake Formation -oikeudet mahdollistavat datajärvesi tietojen tarkan pääsyn hallinnan.
Huomautus: Jos Titanic-tietojoukko on jo luetteloitu, voit ohittaa alla olevan rekisteröintivaiheen.
Rekisteröi S3-tietosäilösi Lake Formationissa
Rekisteröi tietovarastosi suorittamalla seuraavat vaiheet:
- Kirjaudu sisään tilillä A Lake Formation -konsoliin.
Jos tämä on ensimmäinen kerta, kun käytät Lake Formationia, sinun on lisättävä tiliin järjestelmänvalvojat.
- Navigointiruudun kohdassa Oikeudet, valitse Järjestelmänvalvojat ja tietokantojen luojat.
- Alle Data Laken ylläpitäjät, valitse Grant.
Lisäät nyt AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) käyttäjät tai tilille A liittyvät roolit Data Lake -järjestelmänvalvojina.
- Alle Hallinnoi datajärven ylläpitäjiäVarten IAM-käyttäjät ja -roolit, valitse käyttäjäsi tai roolisi (tässä viestissä käytämme
user-a
).
Tämä voi olla myös tilin A IAM-järjestelmänvalvojan rooli.
- Valita Säästä.
- Varmista
IAMAllowedPrincipals
ryhmää ei ole lueteltu kummankin alla Data Laken ylläpitäjät ja tietokanta luojat.
Lisätietoja suojausasetuksista on kohdassa Data Laken oletussuojausasetusten muuttaminen.
Seuraavaksi sinun on rekisteröitävä S3-ämpäri datajärven sijainniksi.
- Lake Formation -konsolin alla Rekisteröidy ja nauti, valitse Datajärvien sijainnit.
Tällä sivulla pitäisi näkyä luettelo S3-segmenteistä, jotka on merkitty Lake Formationin datajärven tallennusresurssiksi. Yksi S3-säilö voi toimia useiden tietojoukkojen arkistona, tai voit käyttää erillisiä tietolähteitä varten erillisiä tietolähteitä.
- Valita Rekisteröi sijainti.
- varten Amazon S3 -polku, syötä ämpärisi polku.
- varten IAM-rooli¸ valitse
AWSServiceRoleForLakeFormationDataAccess
. - Valita Rekisteröi sijainti.
Tämän vaiheen jälkeen sinun pitäisi nähdä S3-kauhan alla Päiväys järvi sijainnit.
Luo tietokanta
Tämä vaihe on valinnainen. Ohita tämä vaihe, jos Titanic-tietojoukko on jo indeksoitu ja luetteloitu. Tietojoukon tietokannan ja taulukon tulee olla olemassa etukäteen datajärvessä.
Suorita seuraavat vaiheet rekisteröidäksesi tietokanta, jos sitä ei ole olemassa:
- Lake Formation -konsolin alla Tietoluettelo, valitse Tietokannat.
- Valita Luo tietokanta.
- varten Tietokannan yksityiskohdatvalitse tietokanta.
- varten Nimi, kirjoita nimi (esimerkiksi
titanic
). - varten Sijainti, syötä S3-datajärven kauhapolku.
- Poista valinta Käytä vain IAM-käyttöoikeuksia tämän tietokannan taulukoissa.
- Valita Luo tietokanta.
- Alle Toiminnot, valitse Oikeudet.
- Valita Näytä käyttöoikeudet.
- Varmista, että
IAMAllowedPrincipals
ryhmää ei ole listattu.
Jos se on luettelossa, varmista, että peruutat pääsyn tähän ryhmään.
Sinun pitäisi nyt pystyä tarkastelemaan alla lueteltua luotua tietokantaa Tietokannat.
Sinun pitäisi myös nähdä taulukko Lake Formation -konsolissa, alla Päiväys luettelo navigointiruudussa, alla taulukot. Tässä esittelyssä oletetaan taulukon nimeksi titanic_datalake_bucket_as
kuten alla.
Myönnä taulukon käyttöoikeudet tilille A
Voit myöntää taulukkokäyttöoikeudet tilille A suorittamalla seuraavat vaiheet:
- Kirjaudu sisään Lake Formation -konsoliin tilillä A.
- Alle Tietoluettelo, valitse taulukot.
- Valitse juuri luotu taulukko.
- On Toiminnot valikon alla Oikeudet, valitse Grant.
- valita Kirjaudu.
- varten IAM-käyttäjät ja -roolit, valitse käyttäjät tai roolit, joille haluat myöntää käyttöoikeuden (valitsemme tälle viestille
user-x
, eri käyttäjä tilillä A).
Voit myös asettaa sarakesuodattimen.
- varten Pylväät, valitse Sisällytä sarakkeet.
- varten Sisällytä sarakkeet, valitse viisi ensimmäistä saraketta
titanic_datalake_bucket_as
pöytä. - varten Taulukon käyttöoikeudetvalitse valita.
- valitsin Grant.
- Vaihda edelleen Athena-konsoliin tilillä A.
- Suorita taulukon esikatselu.
Sinun pitäisi pystyä näkemään tiedoston viisi ensimmäistä saraketta titanic_datalake_bucket_as
taulukko edellisissä vaiheissa myönnettyjen oikeuksien mukaisesti.
Olemme vahvistaneet paikallisen pääsyn datajärvitaulukkoon tilillä A tällä Athena-vaiheella. Myönnetään seuraavaksi pääsy ulkoiselle tilille, meidän tapauksessamme tilille B samalle taulukolle.
Myönnä taulukon käyttöoikeudet tilille B
Tämä ulkoinen tili on Data Wrangleria käyttävä tili. Voit myöntää taulukon käyttöoikeudet suorittamalla seuraavat vaiheet:
- Pysyminen tilillä A, Toiminnot valikon alla Oikeudet, valitse Grant.
- valita Ulkoinen tili.
- varten AWS-tilin tunnus, anna tilin B tilitunnus.
- Valitse samat taulukon viisi ensimmäistä saraketta.
- varten Taulukon käyttöoikeudet ja Myönnettävät käyttöoikeudetvalitse valita.
- Valita Grant.
Sinun on peruutettava Super-lupa IAMAllowedPrincipals
ryhmää tälle taulukolle ennen kuin myönnät sille ulkoisen käyttöoikeuden. Voit tehdä tämän osoitteessa Toiminnot valikko kohdassa Näytä käyttöoikeudet, valitse sitten IAM: n sallimat päämiehet Ja valitse Peruuttaa.
- AWS RAM -konsolissa edelleen tilillä A, alla Minun jakamani, valitse Jaetut resurssit.
Löydämme Lake Formation -merkinnän tältä sivulta.
- Vaihda tilille B.
- AWS RAM -konsolissa, alla Jaettu kanssani, näet Lake Formationin kutsun tilillä A.
- Hyväksy kutsu valitsemalla Hyväksy resurssien jako.
Kun olet hyväksynyt sen, Resurssien osuudet -sivulla sinun pitäisi nähdä jaettu Lake Formation -merkintä, joka sisältää luettelon, tietokannan ja taulukon tiedot.
Tilin B Lake Formation -konsolista löydät tilin A omistaman jaetun taulukon taulukot sivu. Jos et näe sitä, voit päivittää näytön ja resurssin pitäisi ilmestyä pian.
Jos haluat käyttää tätä jaettua taulukkoa tilin B sisällä, sinun on luotava Lake Formationin tilille B paikallinen tietokanta.
- Lake Formation -konsolin alla Tietokannat, valitse Luo tietokantoja.
- Nimeä tietokanta
local_db
.
Seuraavaksi sinun on luotava resurssilinkki Lake Formationin jaetulle titanic-pöydälle. Resurssilinkit ovat Data Catalog -objekteja, jotka linkittävät metatietotietokantoihin ja -taulukoihin, tyypillisesti muiden AWS-tilien jaettuihin tietokantoihin ja taulukoihin. Ne auttavat mahdollistamaan tilien välisen pääsyn datajärven tietoihin.
- Taulukon tietosivulla osoitteessa Toiminnot valikosta, valitse Luo resurssilinkki.
- varten Resurssin linkin nimi, kirjoita nimi (esimerkiksi
titanic_local
). - varten tietokanta, valitse aiemmin luomasi paikallinen tietokanta.
- Arvot Jaettu pöytä ja Jaettu taulukon tietokanta tulee vastata tilin A tietoja, ja ne täytetään automaattisesti.
- varten Jaetun pöydän omistajan tunnus, valitse tilin A tilitunnus.
- Valita luoda.
- Navigointiruudun kohdassa Tietoluettelo, valitse Asetukset.
- Varmistaa Käytä vain IAM-pääsynhallintaa on poistettu käytöstä uusille tietokannoille ja taulukoille.
Tällä varmistetaan, että Lake Formation hallitsee tietokannan ja taulukon käyttöoikeuksia.
- Vaihda SageMaker-konsoliin.
- Studion ohjauspaneelin kohdassa Studion yhteenveto, kopioi suoritusroolin ARN.
- Sinun on myönnettävä tälle roolille käyttöoikeudet paikalliseen tietokantaan, jaettuun taulukkoon ja paikalliseen taulukkoon, joka sinulla oli aiemmin tilin B Lake Formationissa.
- Sinun on myös liitettävä tähän rooliin seuraava mukautettu käytäntö. Tämä käytäntö sallii Studion käyttää tietoja Lake Formationin kautta ja antaa tilin B saada tietoosiot kyselyä varten
titanic
tietojoukko luoduista taulukoista:
- Vaihda takaisin Lake Formation -konsoliin.
- Tässä meidän on myönnettävä SageMaker-suoritusroolille käyttöoikeudet, jotta voimme käyttää jaettua
titanic_datalake_bucket_as
pöytä.
Tämä on taulukko, jonka jaoit tilille B tililtä A AWS-RAM-muistin kautta.
- Tilin B taulukon tietosivulla Toiminnot valikon alla Oikeudet, valitse Grant.
- Myönnä roolille käyttöoikeus taulukkoon ja viiteen sarakkeeseen.
- Lopuksi myönnä SageMaker-suoritusroolin käyttöoikeudet paikalliseen titanic-taulukkoon tilillä B.
Tilien välinen datan käyttö Studiossa
Tässä viimeisessä vaiheessa sinun pitäisi olla valmis validoimaan tähän mennessä käyttöönotetut vaiheet testaamalla tätä Data Wrangler -liittymässä.
- On Tuo välilehti Tuo päivämäärät, valitse Amazon Athena tietolähteenä.
- varten Tietoluettelo, valitse AwsDataCatalog.
- varten tietokanta, valitse paikallinen tietokanta, jonka loit tilillä B (
local_db
).
Sinun pitäisi pystyä näkemään paikallinen taulukko (titanic_local
) oikeassa ruudussa.
- Suorita Athena-kysely seuraavan kuvakaappauksen mukaisesti nähdäksesi valitut sarakkeet
titanic
tietojoukko, jonka annoit SageMaker-suoritusroolille Lake Formationissa (tili B). - Valita Tuo tietojoukko.
- varten Tietojoukon nimi, kirjoita nimi (esimerkiksi
titanic-dataset
). - Valita Lisää.
Tämä tuo titanic-tietojoukon, ja sinun pitäisi pystyä näkemään tietovirtasivu visuaalisilla lohkoilla Valmistella Tab.
Yhteenveto
Tässä viestissä osoitimme, kuinka mahdollistaa tilien välinen pääsy Data Wranglerille Lake Formationin ja AWS RAM:in avulla. Tätä menetelmää noudattaen organisaatiot voivat sallia useiden tietotieteiden ja suunnittelutiimien pääsyn dataan keskitetystä datajärvestä ja rakentaa ominaisuusputkia ja muunnosreseptejä johdonmukaisesti. Lisätietoja Data Wranglerista on kohdassa Esittelyssä Amazon SageMaker Data Wrangler, visuaalinen käyttöliittymä tietojen valmistelemiseksi koneoppimista varten ja Tutkiva tiedonanalyysi, ominaisuuksien suunnittelu ja tietovirtasi operatiivinen käyttö ML-putkistoon Amazon SageMaker Data Wrangler -sovelluksella.
Kokeile Data Wrangleria ja jaa palautteesi ja kysymyksesi kommenttiosiossa.
Tietoja Tekijät
Rizwan Gilani on ohjelmistokehitysinsinööri Amazon SageMakerissa. Hänen intohimonsa on tehdä koneoppimisesta vuorovaikutteisempaa ja saatavuutta mittakaavassa. Ennen sitä hän työskenteli Amazon Alexassa osana Alexa Communicationsin lanseerannutta ydintiimiä.
Phi Nguyen on AWS:n ratkaisuarkkitehti, joka auttaa asiakkaita heidän pilvimatkallaan keskittyen erityisesti datajärveen, analytiikkaan, semantiikan teknologioihin ja koneoppimiseen. Vapaa-ajallaan voit löytää hänet pyöräilemään töihin, valmentamaan poikansa jalkapallojoukkuetta tai nauttimaan luontokävelystä perheensä kanssa.
Arunprasath Shankar on tekoälyn ja koneoppimisen (AI / ML) asiantuntijaratkaisuarkkitehti AWS: n kanssa, joka auttaa globaaleja asiakkaita skaalautumaan tekoälyratkaisuihinsa tehokkaasti ja tehokkaasti pilvessä. Vapaa-ajallaan Arun nauttii scifi-elokuvien katsomisesta ja klassisen musiikin kuuntelusta.
- pääsy
- Tili
- Toiminta
- admin
- AI
- Alexa
- Amazon
- amazon alexa
- Amazon Sage Maker
- analyysi
- Analytics
- sovellukset
- arkkitehtuuri
- tekoäly
- Keinotekoinen älykkyys ja koneoppiminen
- AWS
- rakentaa
- pilvi
- Sarake
- kommentit
- Yhteydenpito
- Asiakkaat
- tiedot
- tietojen käyttö
- tietojen analysointi
- Datajärvi
- tietojenkäsittely
- tietokanta
- tietokannat
- Kehitys
- insinööri
- Tekniikka
- Engineers
- teloitus
- tutkimus
- perhe
- Ominaisuus
- Ominaisuudet
- Etunimi
- ensimmäistä kertaa
- virtaus
- Keskittää
- gif
- Global
- hallinto
- Ryhmä
- Miten
- Miten
- HTTPS
- IAM
- Identiteetti
- Mukaan lukien
- tiedot
- Älykkyys
- vuorovaikutteinen
- IT
- oppiminen
- Taso
- LINK
- Lista
- Kuunteleminen
- paikallinen
- sijainti
- koneoppiminen
- Tekeminen
- ottelu
- ML
- Elokuvat
- Musiikki
- suunnistus
- Muut
- omistaja
- politiikkaa
- politiikka
- preview
- RAM
- reseptit
- Rekisteröinti
- resurssi
- Esittelymateriaalit
- ajaa
- juoksu
- sagemaker
- Asteikko
- tiede
- tutkijat
- Näytön
- turvallisuus
- valittu
- semantiikka
- setti
- Jaa:
- yhteinen
- osakkeet
- Yksinkertainen
- So
- Jalkapallo
- Tuotteemme
- ohjelmistokehitys
- Ratkaisumme
- Vaihe
- alkoi
- Lausunto
- Levytila
- verkkokaupasta
- Vaihtaa
- Technologies
- Testaus
- aika
- Muutos
- us
- Käyttäjät
- Näytä
- visualisointi
- sisällä
- Referenssit
- työnkulku