Włącz dostęp międzykontowy dla Amazon SageMaker Data Wrangler za pomocą AWS Lake Formation

Opublikowane ponownie przez Plato

Obserwuje: 0

Pogromca danych Amazon SageMaker to najszybszy i najłatwiejszy sposób dla naukowców zajmujących się danymi na przygotowanie danych do zastosowań uczenia maszynowego (ML). Dzięki Data Wrangler możesz uprościć proces inżynierii funkcji i ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację za pomocą jednego interfejsu wizualnego. Data Wrangler zawiera 300 wbudowanych receptur transformacji danych, których można użyć do szybkiego normalizowania, przekształcania i łączenia funkcji. Dzięki narzędziu do wybierania danych w Data Wrangler możesz szybko wybierać dane z różnych źródeł danych, takich jak Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni.

Formacja AWS Lake Funkcje wielu kont upraszczają zabezpieczanie rozproszonych jezior danych na wielu kontach i zarządzanie nimi dzięki scentralizowanemu podejściu, zapewniając precyzyjną kontrolę dostępu do tabel Athena.

W tym poście pokazujemy, jak włączyć dostęp między kontami dla Data Wrangler, używając Ateny jako źródła i Lake Formation jako centralnego narzędzia do zarządzania danymi. Jak pokazano na poniższym diagramie architektury, konto A jest kontem jeziora danych, które zawiera wszystkie dane gotowe do ML, pochodzące z potoków ETL. Konto B to konto do nauki o danych, na którym zespół analityków danych używa narzędzia Data Wrangler do kompilowania i przeprowadzania transformacji danych. Musimy włączyć uprawnienia dla wielu kont dla Data Wrangler na koncie B, aby uzyskać dostęp do tabel danych znajdujących się w jeziorze danych konta A za pośrednictwem uprawnień Lake Formation.

Dzięki tej architekturze naukowcy i inżynierowie danych spoza konta jeziora danych mogą uzyskiwać dostęp do danych z jeziora i tworzyć transformacje danych za pośrednictwem narzędzia Data Wrangler.

Zanim przejdziesz do procesu konfiguracji, upewnij się, że dane, które mają być udostępniane między kontami, są przeszukiwane i skatalogowane zgodnie z opisem w tym dokumencie pisać. Załóżmy, że ten proces został zakończony, a bazy danych i tabele już istnieją w Lake Formation.

Poniżej przedstawiono ogólne kroki umożliwiające wdrożenie tego rozwiązania:

Na koncie A zarejestruj swój zasobnik S3 przy użyciu Lake Formation i utwórz niezbędne bazy danych i tabele dla danych, jeśli nie istnieją.
Administrator Lake Formation może teraz udostępniać zestawy danych z konta A innym kontom. Lake Formation udostępnia te zasoby przy użyciu platformy Menedżer dostępu do zasobów AWS (pamięć AWS).
Na koncie B zaakceptuj żądanie udostępnienia zasobów przy użyciu pamięci RAM AWS. Utwórz łącze do lokalnego zasobu dla udostępnionej tabeli za pośrednictwem Lake Formation i utwórz lokalną bazę danych.
Następnie musisz przyznać uprawnienia do Studio SageMaker rolę wykonawczą na koncie B, aby uzyskać dostęp do udostępnionej tabeli i łącza do zasobów utworzonego w poprzednim kroku.
W Data Wrangler użyj lokalnej bazy danych i łącza do zasobów utworzonego na koncie B, aby wysłać zapytanie do zestawu danych za pomocą łącznika Athena i przeprowadzić transformacje funkcji.

Konfiguracja jeziora danych przy użyciu Lake Formation

Aby rozpocząć, utwórz centralne jezioro danych na koncie A. Możesz kontrolować dostęp do jeziora danych za pomocą zasad i uprawnień oraz definiować uprawnienia na poziomie bazy danych, tabeli lub kolumny.

Aby rozpocząć proces konfiguracji, pobieranie plik .csv zestawu danych Titanic i prześlij go do swojego wiadra S3. Po przesłaniu pliku musisz zarejestrować wiadro w Lake Formation. Uprawnienia Lake Formation umożliwiają precyzyjną kontrolę dostępu do danych w Twoim jeziorze danych.

Uwaga: Jeśli zbiór danych Titanic został już skatalogowany, możesz pominąć poniższy krok rejestracji.

Zarejestruj swój magazyn danych S3 w Lake Formation

Aby zarejestrować swój magazyn danych, wykonaj następujące kroki:

Na koncie A zaloguj się do konsoli Lake Formation.

Jeśli uzyskujesz dostęp do Lake Formation po raz pierwszy, musisz dodać administratorów do konta.

W okienku nawigacji w obszarze Uprawnieniawybierz Administratorzy i twórcy baz danych.
Pod Administratorzy jeziora danychwybierz Dotacja.

Teraz dodajesz AWS Zarządzanie tożsamością i dostępem (IAM) użytkownicy lub role specyficzne dla konta A jako administratorzy usługi Data Lake.

Pod Zarządzaj administratorami jeziora danych, Dla Użytkownicy i role uprawnień, wybierz użytkownika lub rolę (w tym poście używamy user-a).

Może to być również rola administratora konta A.

Dodaj Zapisz.

Upewnij się, IAMAllowedPrincipals grupa nie jest wymieniona w obu Administratorzy jeziora danych i Baza danych twórcy.

Aby uzyskać więcej informacji na temat ustawień zabezpieczeń, zobacz Zmiana domyślnych ustawień zabezpieczeń usługi Data Lake.

Następnie musisz zarejestrować zasobnik S3 jako lokalizację jeziora danych.

Na konsoli Lake Formation pod Zarejestruj się i zbierzwybierz Lokalizacje jeziora danych.

Na tej stronie powinna zostać wyświetlona lista zasobników S3, które są oznaczone jako zasoby magazynu danych jeziora dla formacji jeziora. Pojedynczy zasobnik S3 może działać jako repozytorium dla wielu zestawów danych lub możesz użyć oddzielnych zasobników dla oddzielnych źródeł danych.

Dodaj Zarejestruj lokalizację.
W razie zamówieenia projektu Ścieżka Amazon S3wprowadź ścieżkę do swojego wiadra.
W razie zamówieenia projektu Rola IAM¸ wybierz AWSServiceRoleForLakeFormationDataAccess.
Dodaj Zarejestruj lokalizację.

Po tym kroku powinieneś być w stanie zobaczyć swoje wiadro S3 pod spodem Dane jezioro lokalizacji.

Utwórz bazę danych

Ten krok jest opcjonalny. Pomiń ten krok, jeśli zbiór danych Titanic został już przeszukany i skatalogowany. Baza danych i tabela dla zestawu danych powinny istnieć wcześniej w jeziorze danych.

Wykonaj następujące kroki, aby zarejestrować bazę danych, jeśli nie istnieje:

Na konsoli Lake Formation pod Katalog danychwybierz Bazy danych.
Dodaj Utwórz bazę danych.
W razie zamówieenia projektu Szczegóły bazy danych, Wybierz Baza danych.
W razie zamówieenia projektu Imięwprowadź nazwę (na przykład titanic).
W razie zamówieenia projektu Lokalizacjawprowadź ścieżkę zasobnika jeziora danych S3.
Odznacz Używaj tylko kontroli dostępu IAM dla tabel w tej bazie danych.
Dodaj Utwórz bazę danych.

Pod Akcjewybierz Uprawnienia.
Dodaj Zobacz uprawnienia.
Upewnij się, że IAMAllowedPrincipals grupa nie jest wymieniona.

Jeśli jest na liście, pamiętaj, aby unieważnić dostęp do tej grupy.

Powinieneś być teraz w stanie wyświetlić utworzoną bazę danych wymienioną w Bazy danych.

Powinieneś także widzieć tabelę w konsoli Lake Formation poniżej Dane katalog w okienku nawigacji, pod Stoły. W przypadku tego demo załóżmy, że nazwa tabeli to titanic_datalake_bucket_as jak pokazano poniżej.

Przyznaj uprawnienia do tabeli kontu A

Aby przyznać uprawnienia do tabeli kontu A, wykonaj następujące kroki:

Zaloguj się do konsoli Lake Formation za pomocą konta A.
Pod Katalog danychwybierz Stoły.
Wybierz nowo utworzoną tabelę.
Na Akcje menu, pod Uprawnieniawybierz Dotacja.
Wybierz Moje konto.
W razie zamówieenia projektu Użytkownicy i role uprawnień, wybierz użytkowników lub role, do których chcesz przyznać dostęp (w przypadku tego postu wybieramy user-x, inny użytkownik w ramach Konta A).

Możesz także ustawić filtr kolumn.

W razie zamówieenia projektu kolumnywybierz Uwzględnij kolumny.
W razie zamówieenia projektu Uwzględnij kolumny, wybierz pierwsze pięć kolumn z titanic_datalake_bucket_as tabela.
W razie zamówieenia projektu Uprawnienia do tabeli, Wybierz Wybierz.
Wybrałem Dotacja.

Będąc nadal na koncie A, przełącz się na konsolę Athena.
Uruchom podgląd tabeli.

Powinieneś być w stanie zobaczyć pierwsze pięć kolumn titanic_datalake_bucket_as tabela zgodnie z uprawnieniami udzielonymi w poprzednich krokach.

Zatwierdziliśmy lokalny dostęp do tabeli jeziora danych na koncie A za pomocą tego kroku Athena. Następnie przyznajmy dostęp do konta zewnętrznego, w naszym przypadku Konta B dla tej samej tabeli.

Przyznaj uprawnienia do tabeli kontu B

To konto zewnętrzne to konto, na którym działa usługa Data Wrangler. Aby przyznać uprawnienia do tabeli, wykonaj następujące kroki:

Pozostając na koncie A, na Akcje menu, pod Uprawnieniawybierz Dotacja.
Wybierz Konto zewnętrzne.
W razie zamówieenia projektu Identyfikator konta AWSwprowadź identyfikator konta B.
Wybierz te same pierwsze pięć kolumn tabeli.
W razie zamówieenia projektu Uprawnienia do tabeli i Uprawnienia do przyznania, Wybierz Wybierz.
Dodaj Dotacja.

Musisz cofnąć uprawnienie super od IAMAllowedPrincipals grupa dla tej tabeli przed przyznaniem jej dostępu zewnętrznego. Możesz to zrobić na Akcje menu poniżej Zobacz uprawnienia, A następnie wybierz IAM Dozwolone osoby główne i wybierz Unieważnić.

Na konsoli AWS RAM, nadal na koncie A, pod Udostępnione przeze mniewybierz Udostępnione zasoby.

Na tej stronie możemy znaleźć wpis Lake Formation.

Przełącz się na konto B.
Na konsoli AWS RAM pod Podziel sie ze mna, widzisz zaproszenie od Lake Formation na koncie A.

Zaakceptuj zaproszenie, wybierając Zaakceptuj udział zasobów.

Po zaakceptowaniu na Udziały zasobów powinieneś zobaczyć udostępniony wpis Lake Formation, który zawiera informacje o katalogu, bazie danych i tabeli.

W konsoli Lake Formation na koncie B można znaleźć udostępnioną tabelę należącą do konta A w Stoły strona. Jeśli go nie widzisz, możesz odświeżyć ekran, a zasób powinien pojawić się wkrótce.

Aby użyć tej wspólnej tabeli na koncie B, musisz utworzyć bazę danych lokalną dla konta B w Lake Formation.

Na konsoli Lake Formation pod Bazy danychwybierz Twórz bazy danych.
Nazwij bazę danych local_db.

Następnie, dla udostępnionej tabeli Titanic w Lake Formation, musisz utworzyć łącze do zasobów. Łącza do zasobów to obiekty katalogu danych, które łączą się z bazami danych metadanych i tabelami, zwykle do współużytkowanych baz danych i tabel z innych kont AWS. Pomagają umożliwić dostęp do danych w jeziorze danych dla wielu kont.

Na stronie szczegółów tabeli w Akcje menu, wybierz Utwórz łącze do zasobów.

W razie zamówieenia projektu Nazwa łącza do zasobuwprowadź nazwę (na przykład titanic_local).
W razie zamówieenia projektu Baza danych, wybierz lokalną bazę danych, którą utworzyłeś wcześniej.
Wartości dla Wspólny stół i Baza danych tabeli udostępnionej powinny być zgodne z tymi na koncie A i wypełnić automatycznie.
W razie zamówieenia projektu Identyfikator właściciela tabeli udostępnionej, wybierz identyfikator konta A.
Dodaj Stwórz.

W okienku nawigacji w obszarze Katalog danychwybierz Ustawienia.
Upewnij się, Używaj tylko kontroli dostępu IAM jest wyłączona dla nowych baz danych i tabel.

Ma to na celu upewnienie się, że Lake Formation zarządza bazą danych i uprawnieniami do tabeli.

Przełącz się na konsolę SageMaker.
W panelu sterowania Studio w obszarze Podsumowanie Studioskopiuj ARN roli wykonawczej.
Musisz przyznać tej roli uprawnienia dostępu do lokalnej bazy danych, tabeli współużytkowanej i tabeli lokalnej, którą miałeś wcześniej w tworzeniu jeziora konta B.
Musisz również dołączyć następującą niestandardową zasadę do tej roli. Ta zasada umożliwia Studio dostęp do danych za pośrednictwem Lake Formation i umożliwia kontu B pobieranie partycji danych do wysyłania zapytań do titanic zbiór danych z utworzonych tabel:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "glue:GetPartitions" ], "Resource": [ "*" ] } ] }

Wróć do konsoli Lake Formation.
Tutaj musimy przyznać uprawnienia roli wykonawczej SageMaker, aby uzyskać dostęp do udostępnionego pliku titanic_datalake_bucket_as tabela.

To jest tabela, którą udostępniłeś kontu B z konta A przez AWS RAM.

Na koncie B, na stronie szczegółów tabeli, na Akcje menu, pod Uprawnieniawybierz Dotacja.
Przyznaj roli dostęp do tabeli i pięciu kolumn.

Na koniec nadaj roli wykonawczej SageMaker uprawnienia dostępu do lokalnej tabeli titanic na koncie B.

Dostęp do danych między kontami w Studio

Na tym ostatnim etapie powinieneś być gotowy do zweryfikowania dotychczas wdrożonych kroków, testując to w interfejsie Data Wrangler.

Na import tab, dla Importuj datywybierz Amazonka Atena jako źródło danych.

W razie zamówieenia projektu Katalog danychwybierz Katalog danych Aws.
W razie zamówieenia projektu Baza danych, wybierz lokalną bazę danych utworzoną na koncie B (local_db).

Powinieneś być w stanie zobaczyć lokalną tabelę (titanic_local) w prawym okienku.

Uruchom zapytanie Athena, jak pokazano na poniższym zrzucie ekranu, aby zobaczyć wybrane kolumny titanic zestaw danych przekazany roli wykonawczej SageMaker w Lake Formation (konto B).
Dodaj Importuj zbiór danych.

W razie zamówieenia projektu Nazwa zbioru danychwprowadź nazwę (na przykład titanic-dataset).
Dodaj Dodaj.

Spowoduje to zaimportowanie zestawu danych Titanic i powinieneś być w stanie zobaczyć stronę przepływu danych z blokami wizualnymi w Przygotować patka.

Wnioski

W tym poście pokazaliśmy, jak włączyć dostęp do wielu kont dla Data Wrangler przy użyciu Lake Formation i AWS RAM. Zgodnie z tą metodologią organizacje mogą umożliwić wielu zespołom zajmującym się nauką i inżynierią danych dostęp do danych z centralnego jeziora danych oraz spójne tworzenie potoków funkcji i receptur transformacji. Aby uzyskać więcej informacji o Data Wrangler, zobacz Przedstawiamy Amazon SageMaker Data Wrangler, interfejs wizualny do przygotowywania danych do uczenia maszynowego i Eksploracyjna analiza danych, inżynieria funkcji i operacjonalizacja przepływu danych do potoku ML za pomocą Amazon SageMaker Data Wrangler.

Wypróbuj Data Wrangler i podziel się swoją opinią i pytaniami w sekcji komentarzy.

O autorach

Rizwana Gilaniego jest inżynierem ds. rozwoju oprogramowania w Amazon SageMaker. Jego pasją jest uczynienie uczenia maszynowego bardziej interaktywnymi i dostępnymi na dużą skalę. Wcześniej pracował nad Amazon Alexa jako część podstawowego zespołu, który uruchomił Alexa Communications.

Phi Nguyena jest architektem rozwiązań w AWS, pomagającym klientom w ich podróży do chmury, ze szczególnym uwzględnieniem jeziora danych, analityki, technologii semantyki i uczenia maszynowego. W wolnym czasie można go spotkać na rowerze do pracy, trenera drużyny piłkarskiej syna lub spacerów na łonie natury z rodziną.

Arunprasath Shankar jest specjalistą ds. rozwiązań w zakresie sztucznej inteligencji i uczenia maszynowego (AI / ML) w AWS, pomagając globalnym klientom skutecznie i wydajnie skalować rozwiązania AI w chmurze. W wolnym czasie Arun lubi oglądać filmy science fiction i słuchać muzyki klasycznej.