La gouvernance des données est l'ensemble des politiques, processus et systèmes que les organisations utilisent pour assurer la qualité et le traitement approprié de leurs données tout au long de leur cycle de vie dans le but de générer de la valeur commerciale. La gouvernance des données est de plus en plus une priorité pour les clients car ils reconnaissent les données comme l'un de leurs actifs les plus importants. Une gouvernance des données efficace permet une meilleure prise de décision en améliorant la qualité des données, en réduisant les coûts de gestion des données et en garantissant un accès sécurisé aux données pour les parties prenantes. En outre, la gouvernance des données est nécessaire pour se conformer à un environnement réglementaire de plus en plus complexe avec des réglementations sur la confidentialité des données (telles que GDPR et CCPA) et la résidence des données (comme dans l'UE, la Russie et la Chine).
Pour les clients AWS, une gouvernance efficace des données améliore la prise de décision, augmente l'agilité de l'entreprise, offre un avantage concurrentiel et réduit le risque d'amendes en cas de non-respect des obligations réglementaires. Nous comprenons l'opportunité unique de fournir à nos clients une solution complète de gouvernance des données de bout en bout qui s'intègre de manière transparente dans notre portefeuille de services, et Formation AWS Lake et par Catalogue de données AWS Glue sont essentiels pour résoudre ces défis.
Dans cet article, nous sommes ravis de résumer les fonctionnalités fournies par les équipes AWS Glue Data Catalog, AWS Glue crawler et Lake Formation en 2022. Nous avons rassemblé certaines des discussions et solutions clés sur la gouvernance des données, le maillage de données et les données modernes. architecture publiée et présentée dans AWS re:Invent 2022, et quelques solutions de lac de données conçues par les clients et les partenaires AWS pour une référence facile. Que vous soyez un constructeur de plateformes de données, un ingénieur de données, un scientifique des données ou tout leader technologique intéressé par les solutions de lac de données, ce poste est pour vous.
Pour en savoir plus sur la façon dont les clients sécurisent et partagent des données avec Lake Formation, nous vous recommandons d'approfondir les connaissances de GoDaddy maillage de données décentralisé, de Novo Nordisk architecture de données moderne, et les améliorations apportées par JPMorgan à leur Lac de données fédéré, une implémentation de maillage de données gouverné utilisant Lake Formation. En outre, vous pouvez découvrir comment les partenaires AWS se sont intégrés à Lake Formation pour aider les clients à créer des lacs de données uniques, dans Starburst's solution de maillage de données, d'Informatica solution de partage de données automatisé, celle d'Ahana Intégration rapide avec Lake Formation, Coutume de l'Ascendant système de gouvernance des données, comment PBS a utilisé machine learning sur leurs lacs de données, et comment hc1 fournit des informations personnalisées sur la santé pour les clients.
Vous pouvez voir comment Lake Formation est utilisé par les clients pour construire architectures de données modernes dans les conférences re:Invent 2022 suivantes :
L'équipe de Lake Formation a écouté les commentaires des clients et apporté des améliorations dans les domaines de la gouvernance des données entre comptes, en élargissant la source des lacs de données, en permettant la gouvernance unifiée des données d'un catalogue de données d'entreprise, en rendant possible le partage sécurisé des données interentreprises, et étendre la zone de couverture pour des contrôles d'accès précis à Redshift d'Amazon. Dans la suite de cet article, nous sommes heureux de partager les progrès que nous avons réalisés en 2022.
Améliorer la gouvernance intercomptes
Lake Formation fournit la base permettant aux clients de partager des données entre les comptes au sein de leur organisation. Vous pouvez partager les ressources du catalogue de données AWS Glue pour Gestion des identités et des accès AWS (IAM) mandataires au sein d'un compte ainsi que d'autres comptes AWS à l'aide de deux méthodes. La première s'appelle la méthode des ressources nommées, où les utilisateurs peuvent sélectionner les noms des bases de données et des tables et choisir le type d'autorisations à partager. La deuxième méthode utilise des balises LF, où les utilisateurs peuvent créer et associer des balises LF à des bases de données et des tables et accorder l'autorisation aux mandataires IAM à l'aide de stratégies et d'expressions de balise LF.
En novembre 2022, Lake Formation a présenté la version 3 de son fonctionnalité de partage entre comptes. Avec cette nouvelle version, les utilisateurs de Lake Formation peuvent partager des ressources de catalogue à l'aide de LF-Tags au Organisations AWS niveau. Le partage de données à l'aide de balises LF permet de mettre à l'échelle les autorisations et de réduire le travail d'administration pour les constructeurs de lacs de données. La version 3 du partage entre comptes vous permet également de partager des ressources avec des mandataires IAM spécifiques dans d'autres comptes, ce qui permet aux propriétaires de données de contrôler qui peut accéder à leurs données dans d'autres comptes. Enfin, nous avons supprimé les frais généraux liés à l'écriture et à la maintenance des stratégies de ressources du catalogue de données en introduisant Gestionnaire d'accès aux ressources AWS (AWS RAM) invite avec des politiques basées sur les balises LF dans la version 3 du partage entre comptes. Nous vous encourageons à explorer davantage partage entre comptes dans Lake Formation.
Extension des autorisations de Lake Formation à de nouvelles données
Jusqu'à re:Invent 2022, Lake Formation assurait la gestion des autorisations pour les principaux IAM sur les ressources du catalogue de données avec des données sous-jacentes principalement sur Service de stockage simple Amazon (Amazon S3). À re:Invent 2022, nous avons présenté Gestion des autorisations de Lake Formation pour les partages de données Amazon Redshift en mode aperçu. Amazon Redshift est un service d'entrepôt de données entièrement géré à l'échelle du pétaoctet dans le cloud AWS. Les fonction de partage de données permet aux propriétaires de données de regrouper des bases de données, des tables et des vues dans un cluster Amazon Redshift et de les partager avec d'autres clusters Amazon Redshift au sein ou entre des comptes AWS. Le partage de données réduit la nécessité de conserver plusieurs copies des mêmes données dans différents entrepôts de données pour accélérer la prise de décision commerciale dans une organisation. Lake Formation améliore encore le partage des données au sein des partages de données Amazon Redshift en fournissant un contrôle d'accès précis sur les tables et les vues.
Pour plus de détails sur cette fonctionnalité, reportez-vous à Partages de données Redshift gérés par AWS Lake Formation (préversion) ainsi que Comment le partage de données Redshift peut être géré par Lake Formation.
Amazon DME est une plate-forme de cluster gérée pour exécuter des applications Big Data à l'aide d'Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi et Presto à grande échelle. Vous pouvez utiliser Amazon EMR pour exécuter des tâches d'analyse de traitement par lots et par flux sur vos lacs de données S3. À partir de la version 6.7.0 d'Amazon EMR, nous avons introduit Gestion des autorisations de Lake Formation sur un rôle IAM d'exécution utilisé avec l'API EMR Steps. Cette fonctionnalité vous permet de soumettre des applications Apache Spark et Apache Hive à un cluster EMR via l'API EMR Steps qui applique les autorisations au niveau de la table et de la colonne à l'aide de Lake Formation à ce rôle IAM soumettant l'application. Cette intégration de Lake Formation avec Amazon EMR vous permet de partager un cluster EMR entre plusieurs utilisateurs dans une organisation avec différentes autorisations en isolant vos applications via un rôle IAM d'exécution. Nous vous encourageons à vérifier cette fonctionnalité dans l'atelier Lake Formation Intégration avec Amazon EMR à l'aide des rôles d'exécution. Pour explorer un cas d'utilisation, voir Présentation des rôles d'exécution pour les étapes Amazon EMR : utiliser les rôles IAM et AWS Lake Formation pour le contrôle d'accès avec Amazon EMR.
Amazon SageMakerStudio est un environnement de développement entièrement intégré (IDE) pour l'apprentissage automatique (ML) qui permet aux spécialistes des données et aux développeurs de préparer des données pour la construction, la formation, le réglage et le déploiement de modèles. Studio offre une intégration native avec Amazon EMR afin que les scientifiques et les ingénieurs de données puissent préparer de manière interactive des données à l'échelle du pétaoctet à l'aide de frameworks open source tels qu'Apache Spark, Presto et Hive à l'aide des blocs-notes Studio. Avec la sortie de Gestion des autorisations de Lake Formation sur un rôle IAM d'exécution, Studio prend désormais en charge l'accès au niveau des tables et des colonnes avec Lake Formation. Lorsque les utilisateurs se connectent aux clusters EMR à partir des blocs-notes Studio, ils peuvent choisir le rôle IAM (appelé rôle IAM d'exécution) avec lesquels ils veulent se connecter. Si l'accès aux données est géré par Lake Formation, les utilisateurs peuvent appliquer des autorisations au niveau des tables et des colonnes à l'aide de stratégies attachées au rôle d'exécution. Pour plus de détails, reportez-vous à Appliquez des contrôles d'accès aux données précis avec AWS Lake Formation et Amazon EMR d'Amazon SageMaker Studio.
Ingérer et cataloguer des données variées
Un modèle de gouvernance des données robuste comprend des données provenant des nombreuses sources de données d'une organisation et des méthodes pour découvrir et cataloguer ces actifs de données variés. Les robots d'exploration AWS Glue offrent la possibilité de découvrir des données à partir de sources telles qu'Amazon S3, Amazon Redshift et des bases de données NoSQL, et de remplir le catalogue de données AWS Glue.
En 2022, nous avons lancé Prise en charge du robot d'exploration AWS Glue pour Snowflake ainsi que Prise en charge du robot d'exploration AWS Glue pour les tables Delta Lake. Ces intégrations permettent aux robots d'exploration AWS Glue de créer et de mettre à jour des tables de catalogue de données basées sur ces sources de données populaires. Cela facilite encore plus la création de tâches d'extraction, de transformation et de chargement (ETL) avec AWS Glue sur la base de ces tables de catalogue de données comme sources et cibles.
En 2022, l'interface utilisateur des robots d'exploration AWS Glue a été repensée pour offrir une meilleure expérience utilisateur. L'une des principales améliorations apportées dans le cadre de cette révision est la meilleure compréhension de l'historique du robot AWS Glue. L'interface utilisateur de l'historique du robot d'exploration fournit une vue simple des exécutions du robot d'exploration, des planifications, des sources de données et des balises. Pour chaque analyse, l'historique de l'analyseur propose un résumé des modifications du schéma de la base de données ou des modifications de la partition Amazon S3. L'historique du robot fournit également des informations détaillées sur les heures DPU et réduit le temps consacré à l'analyse et au débogage des opérations et des coûts du robot. Pour découvrir les nouvelles fonctionnalités ajoutées à l'interface utilisateur des robots d'exploration, reportez-vous à Configurer et surveiller les robots d'exploration AWS Glue à l'aide de l'interface utilisateur AWS Glue améliorée et de l'historique des robots d'exploration.
En 2022, nous avons également étendu la prise en charge des robots d'exploration basés sur les notifications d'événements Amazon S3 pour prendre en charge les tables de catalogue. Avec cette fonctionnalité, l'analyse incrémentielle peut être déchargée des pipelines de données vers l'analyseur AWS Glue planifié, réduisant ainsi les analyses aux événements S3 incrémentiels. Pour plus d'informations, reportez-vous à Créez des analyses incrémentielles de lacs de données avec les tables de catalogue Glue existantes.
Plus de façons de partager des données au-delà du lac de données
Lors de re:Invent 2022, nous avons annoncé un aperçu de Échange de données AWS pour AWS Lake Formation, une nouvelle fonctionnalité qui permet aux abonnés aux données de rechercher et de s'abonner à des ensembles de données tiers gérés directement via Lake Formation. Jusqu'ici, Échange de données AWS les abonnés pouvaient accéder à des ensembles de données tiers en exportant les fichiers des fournisseurs vers leurs propres compartiments S3, en appelant les API des fournisseurs via Passerelle d'API Amazon, ou en interrogeant les partages de données Amazon Redshift des producteurs à partir de leur cluster Amazon Redshift. Avec la nouvelle intégration de Lake Formation, les fournisseurs de données conservent les ensembles de données AWS Data Exchange à l'aide des balises Lake Formation. Les abonnés aux données peuvent interroger et explorer les bases de données et les tables associées à ces balises, comme n'importe quelle autre ressource AWS Glue Data Catalog. Les organisations peuvent appliquer des autorisations Lake Formation basées sur les ressources pour partager les ensembles de données sous licence au sein du même compte ou entre les comptes à l'aide de Gestionnaire de licences AWS. AWS Data Exchange for Lake Formation rationalise les opérations de licence et de partage des données en accélérant l'intégration des données, en réduisant la quantité d'ETL requise pour que les utilisateurs finaux accèdent aux données tierces et en centralisant la gouvernance et les contrôles d'accès pour les données tierces.
Lors de re:Invent 2022, nous avons également annoncé Zone de données Amazon, un nouveau service de gestion des données qui vous permet de cataloguer, découvrir, partager et gérer plus rapidement et plus facilement les données stockées sur AWS, sur site et des sources tierces. Amazon DataZone est un service de catalogue de données d'entreprise qui complète les métadonnées techniques du catalogue de données AWS Glue. Amazon DataZone est intégré à la gestion des autorisations de Lake Formation afin que vous puissiez gérer et régir efficacement l'accès à vos données, et vérifier qui accède à quelles données et dans quel but. Avec le modèle éditeur-abonné d'Amazon DataZone, les actifs de données peuvent être partagés et accessibles dans toutes les régions. Pour plus de détails sur le service et ses fonctionnalités, reportez-vous au FAQ Amazon DataZone ainsi que lancement de re:Invent.
Conclusion
Les données transforment chaque domaine et chaque entreprise. Cependant, avec une croissance des données plus rapide que la plupart des entreprises ne peuvent suivre, la collecte, la sécurisation et la valorisation de ces données sont une tâche difficile. Une stratégie de données moderne peut vous aider à créer de meilleurs résultats commerciaux grâce aux données. AWS fournit l'ensemble de services le plus complet pour le parcours de données de bout en bout afin de vous aider à libérer de la valeur à partir de vos données et à les transformer en informations.
Chez AWS, nous travaillons à rebours des exigences des clients. De l'équipe de Lake Formation, nous avons travaillé dur pour fournir les fonctionnalités décrites dans cet article, et nous vous invitons à les consulter. Avec notre objectif continu d'inventer, nous espérons jouer un rôle clé en donnant aux organisations les moyens de créer de nouveaux modèles de gouvernance des données qui vous aideront à générer plus de valeur commerciale à la vitesse de l'éclair.
Vous pouvez commencer avec Lake Formation en explorant notre atelier pratique modules et Tutoriels de démarrage. Nous attendons avec impatience d'avoir de vos nouvelles, nos clients, sur vos cas d'utilisation de lac de données et de gouvernance des données. Veuillez prendre contact avec votre équipe de compte AWS et partager vos commentaires.
À propos des auteurs
Jason Berkowitz est chef de produit senior chez AWS Lake Formation. Il vient d'une formation en apprentissage automatique et en architectures de lacs de données. Il aide les clients à devenir data-driven.
Aarthi Srinivasan est architecte Big Data senior chez AWS Lake Formation. Elle aime créer des solutions de lac de données pour les clients et partenaires AWS. Lorsqu'elle n'est pas au clavier, elle explore les dernières tendances scientifiques et technologiques et passe du temps avec sa famille.
Léonard Gomez est architecte principal de solutions spécialisées dans l'analytique chez AWS. Basé à Toronto, au Canada, il a plus d'une décennie d'expérience dans la gestion des données, aidant des clients du monde entier à répondre à leurs besoins commerciaux et techniques.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- capacité
- Capable
- À propos
- accélérer
- accélérer
- accès
- Accès aux données
- accédé
- accès
- Compte
- hybrides
- à travers
- ajoutée
- ajout
- Supplémentaire
- propos
- admin
- Avantage
- permet
- Amazon
- Amazon DME
- Amazon Sage Maker
- montant
- analytique
- l'analyse
- ainsi que
- annoncé
- Apache
- Apache Spark
- api
- Apis
- Candidature
- applications
- Appliquer
- approprié
- architecture
- Réservé
- domaines
- autour
- Outils
- Associé(e)
- associé
- audit
- AWS
- Colle AWS
- Formation AWS Lake
- AWS re: Invent
- fond
- basé
- devenez
- Améliorée
- Au-delà
- Big
- Big Data
- construire
- constructeur
- constructeurs
- Développement
- construit
- la performance des entreprises
- entreprise à entreprise
- appelé
- appel
- Peut obtenir
- Canada
- capacités
- maisons
- cas
- catalogue
- CCPA
- globaux
- difficile
- Modifications
- vérifier
- Chine
- Selectionnez
- le cloud
- Grappe
- Collecte
- collection
- commentaires
- Sociétés
- compétitif
- complet
- complexe
- complet
- NOUS CONTACTER
- a continué
- des bactéries
- contrôles
- Costs
- pourriez
- couverture
- chenilles
- engendrent
- Customiser
- des clients
- Clients
- données
- accès aux données
- ingénieur de données
- D'échange de données
- Lac de données
- gestion des données
- Plateforme de données
- confidentialité des données
- qualité des données
- Data Scientist
- partage de données
- stratégie de données
- entrepôt de données
- entrepôts de données
- data-driven
- Base de données
- bases de données
- ensembles de données
- décennie
- La prise de décision
- profond
- livrer
- livré
- Delta
- déployer
- décrit
- détaillé
- détails
- mobiles
- Développement
- différent
- directement
- découvrez
- chacun
- plus facilement
- Efficace
- de manière efficace
- l'autonomisation des
- permet
- permettant
- encourager
- end-to-end
- ingénieur
- Les ingénieurs
- améliorée
- Améliore
- assurer
- assurer
- Environment
- Ether (ETH)
- EU
- Pourtant, la
- événement
- événements
- Chaque
- échange
- excité
- existant
- expansion
- Découvrez
- explorez
- Explorant
- expressions
- extrait
- famille
- plus rapide
- Fonctionnalité
- Fonctionnalités:
- Réactions
- few
- champ
- Fichiers
- Trouvez
- extrémités
- Prénom
- Focus
- Abonnement
- formation
- Avant
- Fondation
- cadres
- de
- d’étiquettes électroniques entièrement
- fonctionnalités
- plus
- RGPD
- générateur
- obtenez
- obtention
- globe
- aller
- gouvernance
- subvention
- plus grand
- Réservation de groupe
- Croissance
- Maniabilité
- heureux vous
- Dur
- Santé
- entendre
- aider
- aider
- aide
- Histoire
- Ruche
- d'espérance
- HEURES
- Comment
- Cependant
- HTML
- HTTPS
- IAM
- Active
- la mise en oeuvre
- important
- améliorations
- améliore
- l'amélioration de
- in
- Dans d'autres
- inclut
- Y compris
- Augmente
- de plus en plus
- info
- d'information
- perspicacité
- idées.
- des services
- l'intégration
- intégrations
- intéressé
- introduit
- Découvrez le tout nouveau
- nous invitons les riders XCO et DH à rouler sur nos pistes haute performance, et leurs supporters à profiter du spectacle. Pour le XNUMXe anniversaire, nous visons GRAND ! Vous allez vouloir être là ! Nous accueillerons la légendaire traversée de l'étant avec de la musique en direct ! Nous aurons également des divertissements pour les jeunes et les jeunes de cœur pendant l'après-midi. Vous ne voudrez pas manquer ça !
- IT
- Emplois
- chemin
- XNUMX éléments à
- clés / KEY :
- lac
- Nouveautés
- lancé
- leader
- APPRENTISSAGE
- apprentissage
- Niveau
- Licence
- Autorisé
- Licence
- foudre
- Vitesse de l'éclair
- charge
- Style
- click
- machine learning
- LES PLANTES
- Entrée
- FAIT DU
- Fabrication
- gérer
- gérés
- gestion
- manager
- de nombreuses
- Métadonnées
- méthode
- méthodes
- ML
- Mode
- modèle
- numériques jumeaux (digital twin models)
- Villas Modernes
- Modules
- Surveiller
- PLUS
- (en fait, presque toutes)
- plusieurs
- noms
- indigène
- Besoin
- Besoins
- Nouveauté
- nouvelle fonctionnalité
- ordinateurs portables
- Notifications
- Novembre
- Nouveau
- obligations
- code
- Offres Speciales
- Onboarding
- ONE
- open source
- Opérations
- Opportunités
- organisation
- organisations
- Autre
- propre
- propriétaires
- partie
- partenaires,
- PBS
- autorisation
- autorisations
- pétaoctet
- plateforme
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Jouez
- veuillez cliquer
- politiques
- Populaire
- portefeuille
- possible
- Post
- Préparer
- présenté
- Aperçu
- qui se déroulent
- la confidentialité
- les process
- traitement
- Produit
- chef de produit
- Progrès
- fournir
- à condition de
- fournisseurs
- fournit
- aportando
- publié
- but
- qualité
- RAM
- RE
- reconnaître
- recommander
- réduit
- réduire
- régions
- règlements
- régulateurs
- libérer
- Supprimé
- conditions
- Exigences
- ressource
- Ressources
- REST
- Avis
- Analyse
- robuste
- Rôle
- rôle
- Courir
- Russie
- sagemaker
- même
- Escaliers intérieurs
- prévu
- Sciences
- Science et technologie
- Scientifique
- scientifiques
- de façon transparente
- Deuxièmement
- sécurisé
- sécurisation
- supérieur
- service
- Services
- set
- Partager
- commun
- Partages
- partage
- étapes
- So
- sur mesure
- Solutions
- Résoudre
- quelques
- Identifier
- Sources
- Spark
- spécialiste
- groupe de neurones
- vitesse
- dépensé
- parties prenantes
- Starburst
- j'ai commencé
- Commencez
- Étapes
- storage
- stockée
- de Marketing
- courant
- studio
- soumettre
- inscrire
- les abonnés
- tel
- résumé
- RÉSUMÉ
- Support
- Les soutiens
- Système
- Talks
- objectifs
- équipe
- équipes
- Technique
- Technologie
- La
- La Source
- leur
- chose
- des tiers.
- Avec
- tout au long de
- fiable
- à
- toronto
- -nous
- suivre
- Formation
- Transformer
- transformer
- Trends
- TOUR
- ui
- sous-jacent
- comprendre
- unifiée
- unique
- ouvrir
- Mises à jour
- utilisé
- cas d'utilisation
- Utilisateur
- Expérience utilisateur
- utilisateurs
- Plus-value
- version
- Voir
- vues
- Entrepots
- façons
- Quoi
- que
- WHO
- dans les
- Activités:
- travaillé
- atelier
- Ateliers
- écriture
- an
- Votre
- Youtube
- zéphyrnet