Data governance is het verzamelen van beleid, processen en systemen die organisaties gebruiken om de kwaliteit en de juiste verwerking van hun gegevens gedurende de levenscyclus te waarborgen met als doel het genereren van bedrijfswaarde. Data governance is steeds meer top-of-mind voor klanten, aangezien zij data als een van hun belangrijkste activa erkennen. Effectief gegevensbeheer maakt betere besluitvorming mogelijk door de gegevenskwaliteit te verbeteren, de kosten voor gegevensbeheer te verlagen en te zorgen voor veilige toegang tot gegevens voor belanghebbenden. Bovendien is gegevensbeheer vereist om te voldoen aan een steeds complexer wordende regelgevingsomgeving met gegevensprivacy (zoals GDPR en CCPA) en gegevensresidentieregels (zoals in de EU, Rusland en China).
Voor AWS-klanten verbetert effectief databeheer de besluitvorming, vergroot het de zakelijke flexibiliteit, biedt het een concurrentievoordeel en vermindert het het risico op boetes als gevolg van niet-naleving van wettelijke verplichtingen. We begrijpen de unieke kans om onze klanten een allesomvattende end-to-end oplossing voor gegevensbeheer te bieden die naadloos is geรฏntegreerd in ons dienstenportfolio, en AWS Lake-formatie en AWS-lijmgegevenscatalogus zijn de sleutel tot het oplossen van deze uitdagingen.
In dit bericht zijn we verheugd om de functies samen te vatten die de teams van AWS Glue Data Catalog, AWS Glue crawler en Lake Formation in 2022 hebben geleverd. We hebben enkele van de belangrijkste gesprekken en oplossingen verzameld over databeheer, datamesh en moderne data architectuur gepubliceerd en gepresenteerd in AWS re:Invent 2022, en een paar data lake-oplossingen die zijn gebouwd door klanten en AWS-partners voor gemakkelijke referentie. Of je nu een dataplatformbouwer, data-engineer, datawetenschapper of een andere technologieleider bent die geรฏnteresseerd is in datalake-oplossingen, dit bericht is voor jou.
Voor meer informatie over hoe klanten gegevens beveiligen en delen met Lake Formation, raden we aan dieper in te gaan op GoDaddy's gedecentraliseerd datanetwerk, Novo Nordisk moderne data-architectuur, en de verbeteringen van JPMorgan aan hun Gefedereerd datameer, een beheerde datamesh-implementatie met behulp van Lake Formation. U kunt ook leren hoe AWS-partners zijn geรฏntegreerd met Lake Formation om klanten te helpen bij het bouwen van unieke datalakes, in Starburst's data mesh-oplossing, Informatica geautomatiseerde oplossing voor het delen van gegevens, Ahana Presto-integratie met Lake Formation, Ascending's gewoonte systeem voor gegevensbeheer, hoe PBS gebruikte machine learning op hun datameren, en hoe hc1 biedt gepersonaliseerde gezondheidsinzichten voor klanten.
U kunt bekijken hoe Lake Formation door klanten wordt gebruikt om te bouwen moderne data-architecturen in de volgende re:Invent 2022 talks:
Het Lake Formation-team luisterde naar feedback van klanten en voerde verbeteringen door op het gebied van accountoverschrijdend databeheer, het uitbreiden van de bron van datalakes, het mogelijk maken van uniform databeheer van een zakelijke datacatalogus, het veilig delen van business-to-business data mogelijk maken, en uitbreiding van het dekkingsgebied voor fijnmazige toegangscontroles Amazon roodverschuiving. In de rest van dit bericht delen we graag de vooruitgang die we in 2022 hebben geboekt.
Verbetering van accountoverschrijdend beheer
Lake Formation vormt de basis voor klanten om gegevens te delen tussen accounts binnen hun organisatie. U kunt AWS Glue Data Catalog-bronnen delen met AWS Identiteits- en toegangsbeheer (IAM)-principals binnen een account en andere AWS-accounts met behulp van twee methoden. De eerste heet de named-resource-methode, waarbij gebruikers de namen van databases en tabellen kunnen selecteren en het type machtigingen kunnen kiezen om te delen. De tweede methode maakt gebruik van LF-Tags, waar gebruikers LF-Tags kunnen maken en associรซren met databases en tabellen en toestemming kunnen verlenen aan IAM-principals met behulp van LF-Tag-beleid en -expressies.
In november 2022 introduceerde Lake Formation versie 3 van zijn functie voor het delen van meerdere accounts. Met deze nieuwe versie kunnen Lake Formation-gebruikers catalogusbronnen delen met behulp van LF-Tags op de AWS-organisaties niveau. Het delen van gegevens met behulp van LF-tags helpt bij het schalen van machtigingen en vermindert het administratieve werk voor datalake-bouwers. Met versie 3 voor het delen van meerdere accounts kunt u ook bronnen delen met specifieke IAM-principals in andere accounts, waardoor gegevenseigenaren kunnen bepalen wie toegang heeft tot hun gegevens in andere accounts. Ten slotte hebben we de overhead van het schrijven en onderhouden van Data Catalog-resourcebeleid verwijderd door introductie AWS Resource Access Manager (AWS RAM)-uitnodigingen met op LF-Tags gebaseerd beleid in versie 3 voor het delen van meerdere accounts. We raden u aan om deze verder te verkennen accountoverschrijdend delen in Lake Formation.
Toestemmingen voor Lake Formation uitbreiden naar nieuwe gegevens
Tot re:Invent 2022 zorgde Lake Formation voor machtigingenbeheer voor IAM-principals op Data Catalog-resources met onderliggende gegevens voornamelijk op Amazon eenvoudige opslagservice (Amazone S3). Op re:Invent 2022 hebben we geรฏntroduceerd Lake Formation-rechtenbeheer voor Amazon Redshift-gegevensshares in de voorbeeldmodus. Amazon Redshift is een volledig beheerde datawarehouse-service op petabyte-schaal in de AWS Cloud. De functie voor het delen van gegevens stelt gegevenseigenaren in staat om databases, tabellen en weergaven in een Amazon Redshift-cluster te groeperen en deze te delen met andere Amazon Redshift-clusters binnen of tussen AWS-accounts. Het delen van gegevens vermindert de noodzaak om meerdere kopieรซn van dezelfde gegevens in verschillende datawarehouses te bewaren om de zakelijke besluitvorming binnen een organisatie te versnellen. Lake Formation verbetert het delen van gegevens binnen Amazon Redshift-gegevensshares verder door fijnmazige toegangscontrole op tabellen en weergaven te bieden.
Raadpleeg voor meer informatie over deze functie Door AWS Lake Formation beheerde Redshift-datashares (preview) en Hoe Redshift-gegevensuitwisseling kan worden beheerd door Lake Formation.
Amazon EMR is een beheerd clusterplatform om big data-applicaties op schaal uit te voeren met behulp van Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi en Presto. U kunt Amazon EMR gebruiken om analysetaken voor batch- en streamverwerking uit te voeren op uw S3-datalakes. Beginnend met Amazon EMR release 6.7.0, hebben we geรฏntroduceerd Lake Formation-machtigingenbeheer op een runtime IAM-rol gebruikt met de EMR Steps API. Met deze functie kunt u Apache Spark- en Apache Hive-applicaties indienen bij een EMR-cluster via de EMR Steps API die machtigingen op tabel- en kolomniveau afdwingt met behulp van Lake Formation voor die IAM-rol die de applicatie indient. Dankzij deze Lake Formation-integratie met Amazon EMR kunt u een EMR-cluster delen met meerdere gebruikers in een organisatie met verschillende machtigingen door uw applicaties te isoleren via een runtime IAM-rol. We raden je aan om deze functie te controleren in de Lake Formation-workshop Integratie met Amazon EMR met behulp van Runtime-rollen. Zie voor het verkennen van een use-case Introductie van runtime-rollen voor Amazon EMR-stappen: gebruik IAM-rollen en AWS Lake Formation voor toegangscontrole met Amazon EMR.
Amazon SageMaker Studio is een volledig geรฏntegreerde ontwikkelomgeving (IDE) voor machine learning (ML) waarmee datawetenschappers en ontwikkelaars gegevens kunnen voorbereiden voor het bouwen, trainen, afstemmen en implementeren van modellen. Studio biedt een native integratie met Amazon EMR, zodat datawetenschappers en data-engineers interactief gegevens kunnen voorbereiden op petabyte-schaal met behulp van open-source frameworks zoals Apache Spark, Presto en Hive met behulp van Studio-notebooks. Met de vrijlating van Lake Formation-machtigingenbeheer op een runtime IAM-rol, ondersteunt Studio nu toegang op tabel- en kolomniveau met Lake Formation. Wanneer gebruikers verbinding maken met EMR-clusters vanuit Studio-notebooks, kunnen ze de IAM-rol kiezen (de runtime IAM-rol) waarmee ze verbinding willen maken. Als gegevenstoegang wordt beheerd door Lake Formation, kunnen gebruikers machtigingen op tabel- en kolomniveau afdwingen met behulp van beleid dat is gekoppeld aan de runtime-rol. Voor meer details, zie Pas fijnmazige gegevenstoegangscontroles toe met AWS Lake Formation en Amazon EMR van Amazon SageMaker Studio.
Neem gevarieerde gegevens op en catalogiseer ze
Een robuust model voor gegevensbeheer omvat gegevens uit de vele gegevensbronnen van een organisatie en methoden om die gevarieerde gegevensactiva te ontdekken en te catalogiseren. AWS Glue-crawlers bieden de mogelijkheid om gegevens te ontdekken uit bronnen, waaronder Amazon S3-, Amazon Redshift- en NoSQL-databases, en de AWS Glue-gegevenscatalogus te vullen.
In 2022 lanceerden we AWS Glue crawler-ondersteuning voor Snowflake en AWS Glue-crawlerondersteuning voor Delta Lake-tabellen. Dankzij deze integraties kunnen AWS Glue-crawlers Data Catalog-tabellen maken en bijwerken op basis van deze populaire gegevensbronnen. Dit maakt het nog eenvoudiger om extractie-, transformatie- en laadtaken (ETL) te maken met AWS Glue op basis van deze Data Catalog-tabellen als bronnen en doelen.
In 2022 werd de gebruikersinterface van de AWS Glue-crawlers opnieuw ontworpen om een โโbetere gebruikerservaring te bieden. Een van de belangrijkste verbeteringen die als onderdeel van deze herziening worden geleverd, is het grotere inzicht in de geschiedenis van de AWS Glue-crawler. De gebruikersinterface van de crawlergeschiedenis biedt een eenvoudig overzicht van crawlerruns, schema's, gegevensbronnen en tags. Voor elke crawl biedt de crawlergeschiedenis een overzicht van wijzigingen in het databaseschema of wijzigingen in de Amazon S3-partitie. De geschiedenis van de crawler biedt ook gedetailleerde informatie over DPU-uren en vermindert de tijd die wordt besteed aan het analyseren en debuggen van crawlerbewerkingen en -kosten. Raadpleeg voor meer informatie over de nieuwe functionaliteiten die zijn toegevoegd aan de gebruikersinterface van de crawler AWS Glue-crawlers instellen en bewaken met behulp van de verbeterde AWS Glue-gebruikersinterface en crawlergeschiedenis.
In 2022 hebben we ook de ondersteuning voor crawlers uitgebreid op basis van Amazon S3-gebeurtenismeldingen om catalogustabellen te ondersteunen. Met deze functie kan incrementeel crawlen worden overgebracht van datapijplijnen naar de geplande AWS Glue-crawler, waardoor crawls worden teruggebracht tot incrementele S3-gebeurtenissen. Voor meer informatie, zie Bouw incrementele crawls van data lakes met bestaande Glue-catalogustabellen.
Meer manieren om gegevens te delen buiten het datameer
Tijdens re:Invent 2022 hebben we een preview aangekondigd van AWS-gegevensuitwisseling voor AWS Lake Formation, een nieuwe functie waarmee data-abonnees datasets van derden kunnen vinden en zich erop kunnen abonneren die rechtstreeks via Lake Formation worden beheerd. Tot nu, AWS-gegevensuitwisseling abonnees konden toegang krijgen tot datasets van derden door de bestanden van providers te exporteren naar hun eigen S3-buckets, API's van providers aan te roepen via Amazon API-gateway, of het opvragen van Amazon Redshift-gegevensaandelen van producenten uit hun Amazon Redshift-cluster. Met de nieuwe Lake Formation-integratie beheren dataproviders AWS Data Exchange-datasets met behulp van Lake Formation-tags. Gegevensabonnees kunnen de databases en tabellen die aan die tags zijn gekoppeld, opvragen en verkennen, net als elke andere AWS Glue Data Catalog-bron. Organisaties kunnen op bronnen gebaseerde machtigingen voor Lake Formation toepassen om de gelicentieerde datasets binnen hetzelfde account of tussen accounts te delen AWS-licentiebeheerder. AWS Data Exchange voor Lake Formation stroomlijnt het licentiรซren en delen van gegevens door de onboarding van gegevens te versnellen, de hoeveelheid ETL die eindgebruikers nodig hebben om toegang te krijgen tot gegevens van derden te verminderen en het beheer en de toegangscontroles voor gegevens van derden te centraliseren.
Op re:Invent 2022 hebben we ook aangekondigd Amazon DataZone, een nieuwe gegevensbeheerservice waarmee u sneller en gemakkelijker gegevens kunt catalogiseren, ontdekken, delen en beheren die zijn opgeslagen in AWS, on-premises en externe bronnen. Amazon DataZone is een zakelijke gegevenscatalogusservice die de technische metadata in de AWS Glue Data Catalog aanvult. Amazon DataZone is geรฏntegreerd met het machtigingsbeheer van Lake Formation, zodat je de toegang tot je gegevens effectief kunt beheren en regelen, en kunt controleren wie toegang heeft tot welke gegevens en met welk doel. Met het uitgever-abonneemodel van Amazon DataZone kunnen gegevensactiva worden gedeeld en geopend in verschillende regio's. Raadpleeg voor meer informatie over de service en de mogelijkheden ervan de Veelgestelde vragen over Amazon DataZone en re:Invent lancering.
Conclusie
Data transformeert elk vakgebied en elk bedrijf. Echter, met gegevens die sneller groeien dan de meeste bedrijven kunnen bijhouden, is het verzamelen, beveiligen en waarde halen uit die gegevens een uitdaging. Een moderne datastrategie kan u helpen betere bedrijfsresultaten te behalen met data. AWS biedt de meest complete set services voor het end-to-end datatraject om u te helpen waarde uit uw data te halen en om te zetten in inzicht.
Bij AWS werken we terug vanuit de eisen van de klant. Vanuit het Lake Formation-team hebben we hard gewerkt om de functies te leveren die in dit bericht worden beschreven, en we nodigen je uit om ze te bekijken. Met onze voortdurende focus op uitvinden, hopen we een sleutelrol te spelen bij het in staat stellen van organisaties om nieuwe data governance-modellen te bouwen die u helpen razendsnel meer bedrijfswaarde te genereren.
U kunt aan de slag met Lake Formation door onze te verkennen praktijkgerichte werkplaats modules en Zelfstudies aan de slag. We horen graag van u, onze klanten, over uw data lake en data governance use cases. Neem contact op via uw AWS-accountteam en deel uw opmerkingen.
Over de auteurs
Jason Berkowitz is Senior Product Manager bij AWS Lake Formation. Hij heeft een achtergrond in machine learning en data lake-architecturen. Hij helpt klanten datagedreven te worden.
Aarthi Srinivasan is een Senior Big Data Architect bij AWS Lake Formation. Ze bouwt graag data lake-oplossingen voor AWS-klanten en -partners. Als ze niet achter het toetsenbord zit, verkent ze de nieuwste wetenschappelijke en technologische trends en brengt ze tijd door met haar gezin.
Leonardo Gomez is Senior Analytics Specialist Solutions Architect bij AWS. Hij is gevestigd in Toronto, Canada, en heeft meer dan tien jaar ervaring in gegevensbeheer, waarmee hij klanten over de hele wereld helpt bij het aanpakken van hun zakelijke en technische behoeften.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- Bron: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- vermogen
- in staat
- Over
- versnellen
- versnellen
- toegang
- Toegang tot gegevens
- geraadpleegde
- toegang
- Account
- accounts
- over
- toegevoegd
- toevoeging
- Extra
- adres
- beheerder
- Voordeel
- toestaat
- Amazone
- Amazon EMR
- Amazon Sage Maker
- bedragen
- analytics
- het analyseren van
- en
- aangekondigd
- apache
- Apache Spark
- api
- APIs
- Aanvraag
- toepassingen
- Solliciteer
- passend
- architectuur
- GEBIED
- gebieden
- rond
- Activa
- Associรซren
- geassocieerd
- controleren
- AWS
- AWS lijm
- AWS Lake-formatie
- AWS re: Invent
- achtergrond
- gebaseerde
- worden
- Betere
- Verder
- Groot
- Big data
- bouw
- bouwer
- bouwers
- Gebouw
- bebouwd
- bedrijfsdeskundigen
- bedrijf tot bedrijf
- Dit betekent dat we onszelf en onze geliefden praktisch vergiftigen.
- bellen
- Kan krijgen
- Canada
- mogelijkheden
- geval
- gevallen
- catalogus
- CCPA
- uitdagingen
- uitdagend
- Wijzigingen
- controle
- China
- Kies
- Cloud
- TROS
- Het verzamelen van
- Collectie
- opmerkingen
- Bedrijven
- concurrerend
- compleet
- complex
- uitgebreid
- Verbinden
- voortgezet
- onder controle te houden
- controles
- Kosten
- kon
- dekking
- crawler
- en je merk te creรซren
- gewoonte
- klant
- Klanten
- gegevens
- toegang tot data
- data engineer
- Gegevensuitwisseling
- Datameer
- gegevensbeheer
- Gegevensplatform
- data Privacy
- data kwaliteit
- data scientist
- het delen van gegevens
- gegevensstrategie
- datawarehouse
- data warehouses
- Gegevensgestuurde
- Database
- databanken
- datasets
- decennium
- Besluitvorming
- diepere
- leveren
- geleverd
- Delta
- het inzetten
- beschreven
- gedetailleerd
- gegevens
- ontwikkelaars
- Ontwikkeling
- anders
- direct
- Onthul Nu
- elk
- gemakkelijker
- effectief
- effectief
- empowering
- maakt
- waardoor
- aanmoedigen
- eind tot eind
- ingenieur
- Ingenieurs
- verbeterde
- Verbetert
- verzekeren
- zorgen
- Milieu
- Ether (ETH)
- EU
- Zelfs
- Event
- EVENTS
- Alle
- uitwisseling
- opgewonden
- bestaand
- uit te breiden
- ervaring
- Verken
- Verkennen
- uitdrukkingen
- extract
- familie
- sneller
- Kenmerk
- Voordelen
- feedback
- weinig
- veld-
- Bestanden
- VIND DE PLEK DIE PERFECT VOOR JOU IS
- uiteinden
- Voornaam*
- Focus
- volgend
- vorming
- Naar voren
- Foundation
- frameworks
- oppompen van
- geheel
- functionaliteiten
- verder
- GDPR
- het genereren van
- krijgen
- het krijgen van
- wereldbol
- gaan
- bestuur
- toe te kennen
- meer
- Groep
- Groeiend
- Behandeling
- gelukkig
- Hard
- Gezondheid
- gehoor
- hulp
- het helpen van
- helpt
- geschiedenis
- Bijenkorf
- hoop
- HOURS
- Hoe
- Echter
- HTML
- HTTPS
- IAM
- Identiteit
- uitvoering
- belangrijk
- verbeteringen
- verbetert
- het verbeteren van
- in
- Anders
- omvat
- Inclusief
- Verhoogt
- in toenemende mate
- info
- informatie
- inzicht
- inzichten
- geรฏntegreerde
- integratie
- integraties
- geรฏnteresseerd
- geรฏntroduceerd
- de invoering
- uitnodigt
- IT
- Vacatures
- Houden
- sleutel
- meer
- laatste
- gelanceerd
- leider
- LEARN
- leren
- Niveau
- Vergunning
- Erkend
- Licenties
- bliksem
- Bliksemsnel
- laden
- Kijk
- machine
- machine learning
- gemaakt
- Hoofd
- MERKEN
- maken
- beheer
- beheerd
- management
- manager
- veel
- Metadata
- methode
- methoden
- ML
- Mode
- model
- modellen
- Modern
- Modules
- monitor
- meer
- meest
- meervoudig
- namen
- inheemse
- Noodzaak
- behoeften
- New
- nieuwe functie
- laptops
- meldingen
- November
- Nieuw
- verplichtingen
- bieden
- Aanbod
- Onboarding
- EEN
- open source
- Operations
- kansen
- organisatie
- organisaties
- Overige
- het te bezitten.
- eigenaren
- deel
- partners
- PBS
- toestemming
- permissies
- petabyte
- platform
- Plato
- Plato gegevensintelligentie
- PlatoData
- Spelen
- dan
- beleidsmaatregelen door te lezen.
- Populair
- portfolio
- mogelijk
- Post
- Voorbereiden
- gepresenteerd
- Voorbeschouwing
- in de eerste plaats
- privacy
- processen
- verwerking
- Product
- product manager
- Voortgang
- zorgen voor
- mits
- providers
- biedt
- het verstrekken van
- gepubliceerde
- doel
- kwaliteit
- RAM
- RE
- herkennen
- adviseren
- vermindert
- vermindering
- regio
- reglement
- regelgevers
- los
- verwijderd
- nodig
- Voorwaarden
- hulpbron
- Resources
- REST
- beoordelen
- Risico
- robuust
- Rol
- rollen
- lopen
- Rusland
- sagemaker
- dezelfde
- Scale
- gepland
- Wetenschap
- Wetenschap en Technologie
- Wetenschapper
- wetenschappers
- naadloos
- Tweede
- beveiligen
- beveiligen
- senior
- service
- Diensten
- reeks
- Delen
- gedeeld
- Aandelen
- delen
- Eenvoudig
- So
- oplossing
- Oplossingen
- Het oplossen van
- sommige
- bron
- bronnen
- Vonk
- specialist
- specifiek
- snelheid
- besteed
- stakeholders
- starburst
- gestart
- Start
- Stappen
- mediaopslag
- opgeslagen
- Strategie
- stream
- studio
- voorleggen
- abonneren
- abonnees
- dergelijk
- samenvatten
- OVERZICHT
- ondersteuning
- steunen
- Systems
- Talks
- doelen
- team
- teams
- Technisch
- Technologie
- De
- De Bron
- hun
- ding
- van derden
- Door
- overal
- niet de tijd of
- naar
- toronto
- spoor
- Trainingen
- Transformeren
- transformeren
- Trends
- BEURT
- ui
- die ten grondslag liggen
- begrijpen
- unified
- unieke
- openen
- bijwerken
- .
- use case
- Gebruiker
- Gebruikerservaring
- gebruikers
- waarde
- versie
- Bekijk
- .
- Magazijn
- manieren
- Wat
- of
- WIE
- binnen
- Mijn werk
- werkte
- werkplaats
- Workshops
- het schrijven van
- jaar
- Your
- youtube
- zephyrnet