Amazon SageMaker Data Wrangler ist die schnellste und einfachste Möglichkeit für Datenwissenschaftler, Daten für Anwendungen des maschinellen Lernens (ML) vorzubereiten. Mit Data Wrangler können Sie den Prozess des Feature-Engineerings vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich Datenauswahl, Bereinigung, Erkundung und Visualisierung, über eine einzige visuelle Oberfläche ausführen. Data Wrangler enthält 300 integrierte Datentransformationsrezepte, mit denen Sie Funktionen schnell normalisieren, transformieren und kombinieren können. Mit dem Datenauswahl-Tool in Data Wrangler können Sie schnell Daten aus verschiedenen Datenquellen auswählen, z Amazon Simple Storage-Service (Amazon S3), Amazonas Athena und Amazon RedShift.
AWS Lake-Formation Kontoübergreifende Funktionen vereinfachen die Sicherung und Verwaltung verteilter Datenseen über mehrere Konten hinweg durch einen zentralisierten Ansatz und bieten eine differenzierte Zugriffskontrolle auf Athena-Tabellen.
In diesem Beitrag zeigen wir, wie Sie den kontenübergreifenden Zugriff für Data Wrangler mithilfe von Athena als Quelle und Lake Formation als zentrale Datenverwaltungsfunktion aktivieren können. Wie im folgenden Architekturdiagramm gezeigt, ist Konto A das Datenseekonto, das alle ML-fähigen Daten enthält, die von ETL-Pipelines abgeleitet wurden. Konto B ist das Data Science-Konto, bei dem ein Team von Datenwissenschaftlern Data Wrangler zum Kompilieren und Ausführen von Datentransformationen verwendet. Wir müssen kontenübergreifende Berechtigungen für Data Wrangler in Konto B aktivieren, um über Lake Formation-Berechtigungen auf die Datentabellen im Datensee von Konto A zugreifen zu können.
Mit dieser Architektur können Datenwissenschaftler und Ingenieure außerhalb des Data Lake-Kontos auf Daten aus dem See zugreifen und über Data Wrangler Datentransformationen erstellen.
Stellen Sie vor dem Einstieg in den Einrichtungsprozess sicher, dass die Daten, die für mehrere Konten freigegeben werden sollen, wie in diesem Abschnitt beschrieben gecrawlt und katalogisiert werden Post. Nehmen wir an, dieser Prozess ist abgeschlossen und die Datenbanken und Tabellen sind bereits in Lake Formation vorhanden.
Im Folgenden sind die allgemeinen Schritte zur Implementierung dieser Lösung aufgeführt:
- Registrieren Sie in Konto A Ihren S3-Bucket mit Lake Formation und erstellen Sie die erforderlichen Datenbanken und Tabellen für die Daten, falls diese nicht vorhanden sind.
- Der Lake Formation-Administrator kann jetzt Datensätze von Konto A für andere Konten freigeben. Lake Formation teilt diese Ressourcen mit AWS-Ressourcenzugriffsmanager (AWS-RAM).
- Akzeptieren Sie in Konto B die Anforderung zur gemeinsamen Nutzung von Ressourcen mithilfe von AWS RAM. Erstellen Sie über Lake Formation einen lokalen Ressourcenlink für die gemeinsam genutzte Tabelle und erstellen Sie eine lokale Datenbank.
- Als Nächstes müssen Sie Berechtigungen für die erteilen SageMaker-Studio Ausführungsrolle in Konto B, um auf die gemeinsam genutzte Tabelle und den Ressourcenlink zuzugreifen, den Sie im vorherigen Schritt erstellt haben.
- Verwenden Sie in Data Wrangler die lokale Datenbank und den Ressourcenlink, den Sie in Konto B erstellt haben, um das Dataset mithilfe des Athena-Connectors abzufragen und Feature-Transformationen durchzuführen.
Datensee-Setup mit Lake Formation
Erstellen Sie zunächst einen zentralen Datensee in Konto A. Sie können den Zugriff auf den Datensee mit Richtlinien und Berechtigungen steuern und Berechtigungen auf Datenbank-, Tabellen- oder Spaltenebene definieren.
Um den Einrichtungsprozess zu starten, herunterladen die CSV-Datei des Titanic-Datasets und laden Sie sie in Ihren S3-Bucket hoch. Nachdem Sie die Datei hochgeladen haben, müssen Sie den Bucket in Lake Formation registrieren. Lake Formation-Berechtigungen ermöglichen eine differenzierte Zugriffssteuerung für Daten in Ihrem Data Lake.
Hinweis: Wenn der Titanic-Datensatz bereits katalogisiert wurde, können Sie den folgenden Registrierungsschritt überspringen.
Registrieren Sie Ihren S3-Datenspeicher in Lake Formation
Führen Sie die folgenden Schritte aus, um Ihren Datenspeicher zu registrieren:
- Melden Sie sich in Konto A bei der Lake Formation-Konsole an.
Wenn Sie zum ersten Mal auf Lake Formation zugreifen, müssen Sie dem Konto Administratoren hinzufügen.
- Im Navigationsbereich unter Berechtigungen, wählen Administratoren und Datenbankersteller.
- Der Data Lake Administratoren, wählen Gewähren.
Sie fügen jetzt hinzu AWS Identity and Access Management and (IAM) Benutzer oder Rollen, die für Konto A spezifisch sind, als Data Lake-Administratoren.
- Der Verwalten von Data Lake-AdministratorenZ. IAM-Benutzer und -Rollen, wählen Sie Ihren Benutzer oder Ihre Rolle (für diesen Beitrag verwenden wir
user-a
).
Dies kann auch die IAM-Administratorrolle von Konto A sein.
- Auswählen Speichern.
- Stellen Sie sicher, dass die
IAMAllowedPrincipals
Gruppe ist nicht unter beiden aufgeführt Data Lake Administratoren und Datenbase Schöpfer.
Weitere Informationen zu Sicherheitseinstellungen finden Sie unter Ändern der Standardsicherheitseinstellungen für Ihren Data Lake.
Als Nächstes müssen Sie den S3-Bucket als Speicherort für den Datensee registrieren.
- Auf der Lake Formation-Konsole unter Registrieren und einnehmen, wählen Datenseestandorte.
Diese Seite sollte eine Liste von S3-Buckets anzeigen, die als Datenspeicherressourcen für Lake Formation gekennzeichnet sind. Ein einzelner S3-Bucket kann als Repository für viele Datasets dienen, oder Sie können separate Buckets für separate Datenquellen verwenden.
- Auswählen Ort registrieren.
- Aussichten für Amazon S3-PfadGeben Sie den Pfad für Ihren Eimer ein.
- Aussichten für IAM-Rollewählen
AWSServiceRoleForLakeFormationDataAccess
. - Auswählen Ort registrieren.
Nach diesem Schritt sollten Sie Ihren S3-Bucket unter sehen können Datum See Standorte.
Erstellen Sie eine Datenbank
Dieser Schritt ist optional. Überspringen Sie diesen Schritt, wenn das Titanic-Dataset bereits gecrawlt und katalogisiert wurde. Die Datenbank und die Tabelle für den Datensatz sollten im Datensee bereits vorhanden sein.
Führen Sie die folgenden Schritte aus, um die Datenbank zu registrieren, falls sie nicht vorhanden ist:
- Auf der Lake Formation-Konsole unter Datenkatalog, wählen Datenbanken.
- Auswählen Datenbank erstellen.
- Aussichten für DatenbankdetailsWählen Datenbase.
- Aussichten für Name und VornameGeben Sie einen Namen ein (z. B.
titanic
). - Aussichten für OrtGeben Sie den Bucket-Pfad des S3-Datensees ein.
- Deaktivieren Verwenden Sie nur IAM-Zugriffssteuerungen für Tabellen in dieser Datenbank.
- Auswählen Datenbank erstellen.
- Der Aktionen, wählen Berechtigungen.
- Auswählen Berechtigungen anzeigen.
- Stellen Sie sicher, dass die
IAMAllowedPrincipals
Gruppe ist nicht aufgeführt.
Wenn es aufgeführt ist, stellen Sie sicher, dass Sie den Zugriff auf diese Gruppe widerrufen.
Sie sollten nun in der Lage sein, die unter aufgelistete erstellte Datenbank anzuzeigen Datenbanken.
Sie sollten auch die Tabelle in der Lake Formation-Konsole unter sehen können Datum Katalog im Navigationsbereich unter Tische. Nehmen wir für diese Demo den Tabellennamen an titanic_datalake_bucket_as
wie unten gezeigt.
Gewähren Sie dem Konto A Tabellenberechtigungen
Führen Sie die folgenden Schritte aus, um Konto A Tabellenberechtigungen zu erteilen:
- Melden Sie sich mit Konto A bei der Lake Formation-Konsole an.
- Der Datenkatalog, wählen Tische.
- Wählen Sie die neu erstellte Tabelle aus.
- Auf dem Aktionen Menü unter Berechtigungen, wählen Gewähren.
- Auswählen Mein Konto.
- Aussichten für IAM-Benutzer und -RollenWählen Sie die Benutzer oder Rollen aus, denen Sie Zugriff gewähren möchten (für diesen Beitrag wählen wir
user-x
, ein anderer Benutzer innerhalb von Konto A).
Sie können auch einen Spaltenfilter festlegen.
- Aussichten für Spalten, wählen Spalten einschließen.
- Aussichten für Spalten einschließenWählen Sie die ersten fünf Spalten aus
titanic_datalake_bucket_as
Tabelle. - Aussichten für TabellenberechtigungenWählen Auswählen.
- Wählen Gewähren.
- Wechseln Sie noch in Konto A zur Athena-Konsole.
- Führen Sie eine Tabellenvorschau aus.
Sie sollten in der Lage sein, die ersten fünf Spalten der zu sehen titanic_datalake_bucket_as
Tabelle gemäß den erteilten Berechtigungen in den vorherigen Schritten.
Wir haben den lokalen Zugriff auf die Datenseetabelle in Konto A über diesen Athena-Schritt validiert. Als Nächstes gewähren wir Zugriff auf ein externes Konto, in unserem Fall Konto B für dieselbe Tabelle.
Gewähren Sie dem Konto B Tabellenberechtigungen
Dieses externe Konto ist das Konto, auf dem Data Wrangler ausgeführt wird. Führen Sie die folgenden Schritte aus, um Tabellenberechtigungen zu erteilen:
- Bleiben Sie innerhalb von Konto A, auf der Aktionen Menü unter Berechtigungen, wählen Gewähren.
- Auswählen Externes Konto.
- Aussichten für AWS-Konto-IDGeben Sie die Konto-ID von Konto B ein.
- Wählen Sie die gleichen ersten fünf Spalten der Tabelle.
- Aussichten für Tabellenberechtigungen und Erteilbare BerechtigungenWählen Auswählen.
- Auswählen Gewähren.
Sie müssen die Super-Berechtigung von der IAMAllowedPrincipals
Gruppe für diese Tabelle, bevor Sie ihr externen Zugriff gewähren. Sie können dies auf dem tun Aktionen Menü unter Berechtigungen anzeigen, Dann wählen IAMallowedPrincipals und wählen Sie Widerrufen.
- Auf der AWS RAM-Konsole, noch in Konto A, unter Von mir geteilt, wählen Geteilte Ressourcen.
Auf dieser Seite finden Sie einen Eintrag zur Lake Formation.
- Wechseln Sie zu Konto B.
- Auf der AWS RAM-Konsole unter Mit mir geteiltsehen Sie eine Einladung von Lake Formation in Konto A.
- Nehmen Sie die Einladung an, indem Sie wählen Ressourcenfreigabe akzeptieren.
Nachdem Sie es akzeptiert haben, auf der Ressourcenfreigaben Auf dieser Seite sollte der freigegebene Lake Formation-Eintrag angezeigt werden, der die Katalog-, Datenbank- und Tabelleninformationen enthält.
Auf der Lake Formation-Konsole in Konto B finden Sie die freigegebene Tabelle von Konto A auf der Tische Seite. Wenn Sie es nicht sehen, können Sie Ihren Bildschirm aktualisieren und die Ressource sollte in Kürze angezeigt werden.
Um diese gemeinsam genutzte Tabelle in Konto B zu verwenden, müssen Sie eine lokale Datenbank für Konto B in Lake Formation erstellen.
- Auf der Lake Formation-Konsole unter Datenbanken, wählen Datenbanken erstellen.
- Benennen Sie die Datenbank
local_db
.
Als Nächstes müssen Sie für die gemeinsam genutzte Titantabelle in Lake Formation einen Ressourcenlink erstellen. Ressourcenverknüpfungen sind Datenkatalogobjekte, die mit Metadatendatenbanken und -tabellen verknüpft sind, normalerweise mit freigegebenen Datenbanken und Tabellen aus anderen AWS-Konten. Sie ermöglichen den kontenübergreifenden Zugriff auf Daten im Datensee.
- Auf der Seite mit den Tabellendetails auf der Aktionen Menü, wählen Sie Ressourcenlink erstellen.
- Aussichten für Name des RessourcenlinksGeben Sie einen Namen ein (z. B.
titanic_local
). - Aussichten für DatenbaseWählen Sie die lokale Datenbank aus, die Sie zuvor erstellt haben.
- Die Werte für Gemeinsamer Tisch und Datenbank der freigegebenen Tabelle sollte mit denen in Konto A übereinstimmen und automatisch ausgefüllt werden.
- Aussichten für Eigentümer-ID der freigegebenen TabelleWählen Sie die Konto-ID von Konto A.
- Auswählen Erstellen.
- Im Navigationsbereich unter Datenkatalog, wählen Einstellungen .
- Stelle sicher Verwenden Sie nur die IAM-Zugriffskontrolle ist für neue Datenbanken und Tabellen deaktiviert.
Damit stellen Sie sicher, dass Lake Formation die Datenbank- und Tabellenberechtigungen verwaltet.
- Wechseln Sie zur SageMaker-Konsole.
- In der Studio-Systemsteuerung unter Studio-ZusammenfassungKopieren Sie die ARN der Ausführungsrolle.
- Sie müssen dieser Rolle Berechtigungen erteilen, um auf die lokale Datenbank, die gemeinsam genutzte Tabelle und die lokale Tabelle zuzugreifen, die Sie zuvor in Lake Formation von Konto B hatten.
- Sie müssen dieser Rolle auch die folgende benutzerdefinierte Richtlinie hinzufügen. Diese Richtlinie ermöglicht Studio den Zugriff auf Daten über Lake Formation und Konto B das Abrufen von Datenpartitionen zum Abfragen von
titanic
Datensatz aus den erstellten Tabellen:
- Wechseln Sie zurück zur Lake Formation-Konsole.
- Hier müssen wir Berechtigungen für die SageMaker-Ausführungsrolle erteilen, um auf die Freigabe zugreifen zu können
titanic_datalake_bucket_as
Tabelle.
Dies ist die Tabelle, die Sie von Konto A über AWS RAM für Konto B freigegeben haben.
- In Konto B auf der Seite mit den Tabellendetails auf der Aktionen Menü unter Berechtigungen, wählen Gewähren.
- Gewähren Sie der Rolle Zugriff auf die Tabelle und fünf Spalten.
- Gewähren Sie abschließend der SageMaker-Ausführungsrolle die Berechtigung, auf die lokale Titantabelle in Konto B zuzugreifen.
Kontoübergreifender Datenzugriff in Studio
In dieser letzten Phase sollten Sie bereit sein, die bisher bereitgestellten Schritte zu validieren, indem Sie dies in der Data Wrangler-Oberfläche testen.
- Auf dem Import Registerkarte, für Daten importieren, wählen Amazonas Athena als Ihre Datenquelle.
- Aussichten für Datenkatalog, wählen AWSDataKatalog.
- Aussichten für DatenbaseWählen Sie die lokale Datenbank aus, die Sie in Konto B erstellt haben (
local_db
).
Sie sollten in der Lage sein, die lokale Tabelle zu sehen (titanic_local
) im rechten Bereich.
- Führen Sie eine Athena-Abfrage wie im folgenden Screenshot gezeigt aus, um die ausgewählten Spalten des anzuzeigen
titanic
Datensatz, den Sie der SageMaker-Ausführungsrolle in Lake Formation (Konto B) gegeben haben. - Auswählen Datensatz importieren.
- Aussichten für DatensatznameGeben Sie einen Namen ein (z. B.
titanic-dataset
). - Auswählen Speichern.
Dadurch wird das Titanic-Dataset importiert, und Sie sollten in der Lage sein, die Datenflussseite mit den visuellen Blöcken auf dem zu sehen Danach Tab.
Zusammenfassung
In diesem Beitrag haben wir gezeigt, wie der kontoübergreifende Zugriff für Data Wrangler mithilfe von Lake Formation und AWS RAM aktiviert wird. Nach dieser Methode können Unternehmen mehreren Data Science- und Engineering-Teams den Zugriff auf Daten aus einem zentralen Datensee ermöglichen und Feature-Pipelines und Transformationsrezepte konsistent erstellen. Weitere Informationen zu Data Wrangler finden Sie unter Einführung in Amazon SageMaker Data Wrangler, eine visuelle Schnittstelle zur Vorbereitung von Daten für maschinelles Lernen und Explorative Datenanalyse, Feature-Engineering und Operationalisierung Ihres Datenflusses in Ihre ML-Pipeline mit Amazon SageMaker Data Wrangler.
Probieren Sie Data Wrangler aus und teilen Sie Ihr Feedback und Ihre Fragen im Kommentarbereich mit.
Über die Autoren
Rizwan Gilani ist Software Development Engineer bei Amazon SageMaker. Seine Leidenschaft liegt darin, maschinelles Lernen interaktiver und in größerem Maßstab zugänglich zu machen. Zuvor arbeitete er bei Amazon Alexa als Teil des Kernteams, das Alexa Communications ins Leben gerufen hat.
Phi Nguyen ist ein Lösungsarchitekt bei AWS, der Kunden bei ihrer Cloud-Reise mit einem besonderen Schwerpunkt auf Data Lake, Analytics, Semantics-Technologien und maschinellem Lernen unterstützt. In seiner Freizeit fährt er mit dem Fahrrad zur Arbeit, trainiert die Fußballmannschaft seines Sohnes oder genießt einen Naturspaziergang mit seiner Familie.
Arunprasath Shankar ist ein auf AWS spezialisierter Lösungsarchitekt für künstliche Intelligenz und maschinelles Lernen (AI / ML), der globalen Kunden hilft, ihre KI-Lösungen effektiv und effizient in der Cloud zu skalieren. In seiner Freizeit sieht Arun gerne Science-Fiction-Filme und hört klassische Musik.
- Zugang
- Konto
- Action
- Administrator
- AI
- Alexa
- Amazon
- Amazonas alexa
- Amazon Sage Maker
- Analyse
- Analytik
- Anwendungen
- Architektur
- künstliche Intelligenz
- Künstliche Intelligenz und maschinelles Lernen
- AWS
- bauen
- Cloud
- Kolonne
- Bemerkungen
- Kommunikation
- Kunden
- technische Daten
- Datenzugriff
- Datenanalyse
- Datensee
- Datenwissenschaft
- Datenbase
- Datenbanken
- Entwicklung
- Ingenieur
- Entwicklung
- Ingenieure
- Ausführung
- Exploration
- Familie
- Merkmal
- Eigenschaften
- Vorname
- erstes Mal
- Fluss
- Setzen Sie mit Achtsamkeit
- gif
- Global
- Governance
- Gruppe an
- Ultraschall
- Hilfe
- HTTPS
- IAM
- Identitätsschutz
- Einschließlich
- Information
- Intelligenz
- interaktive
- IT
- lernen
- Niveau
- LINK
- Liste
- Hören
- aus einer regionalen
- Standorte
- Maschinelles Lernen
- Making
- Spiel
- ML
- Filme
- Musik
- Navigation
- Andere
- Eigentümer
- Politik durchzulesen
- Datenschutzrichtlinien
- Vorspann
- RAM
- Rezepte
- Registrierung:
- Ressourcen
- Downloads
- Führen Sie
- Laufen
- sagemaker
- Skalieren
- Wissenschaft
- Wissenschaftler
- Bildschirm
- Sicherheitdienst
- ausgewählt
- Semantik
- kompensieren
- Teilen
- von Locals geführtes
- Shares
- Einfacher
- So
- Fußball
- Software
- Software-Entwicklung
- Lösungen
- Stufe
- begonnen
- Erklärung
- Lagerung
- speichern
- Schalter
- Technologies
- Testen
- Zeit
- Transformation
- us
- Nutzer
- Anzeigen
- Visualisierung
- .
- Arbeiten
- Arbeitsablauf.