La governance dei dati è la raccolta di politiche, processi e sistemi che le organizzazioni utilizzano per garantire la qualità e la gestione appropriata dei propri dati durante tutto il loro ciclo di vita allo scopo di generare valore aziendale. La governance dei dati è sempre più importante per i clienti poiché riconoscono i dati come una delle loro risorse più importanti. Una governance dei dati efficace consente un migliore processo decisionale migliorando la qualità dei dati, riducendo i costi di gestione dei dati e garantendo un accesso sicuro ai dati per le parti interessate. Inoltre, la governance dei dati deve conformarsi a un ambiente normativo sempre più complesso con normative sulla privacy dei dati (come GDPR e CCPA) e sulla residenza dei dati (come nell'UE, in Russia e in Cina).
Per i clienti AWS, una governance dei dati efficace migliora il processo decisionale, aumenta l'agilità aziendale, offre un vantaggio competitivo e riduce il rischio di multe dovute al mancato rispetto degli obblighi normativi. Comprendiamo l'opportunità unica di fornire ai nostri clienti una soluzione completa di governance dei dati end-to-end perfettamente integrata nel nostro portafoglio di servizi e Formazione AWS Lake e la Catalogo dati di AWS Glue sono fondamentali per risolvere queste sfide.
In questo post, siamo entusiasti di riassumere le funzionalità fornite dai team di catalogo dati di AWS Glue, crawler di AWS Glue e Lake Formation nel 2022. Abbiamo raccolto alcuni dei discorsi e delle soluzioni chiave su governance dei dati, mesh di dati e dati moderni architettura pubblicata e presentata in AWS re:Invent 2022 e alcune soluzioni di data lake create da clienti e partner AWS per una facile consultazione. Che tu sia un costruttore di piattaforme dati, un ingegnere di dati, uno scienziato di dati o qualsiasi leader tecnologico interessato alle soluzioni di data lake, questo post è per te.
Per saperne di più su come i clienti proteggono e condividono i dati con Lake Formation, ti consigliamo di approfondire GoDaddy's rete di dati decentralizzata, di Novo Nordisk moderna architettura dei datie i miglioramenti apportati da JPMorgan al loro file Data Lake federato, un'implementazione di data mesh regolata che utilizza Lake Formation. Inoltre, puoi scoprire come i partner AWS si sono integrati con Lake Formation per aiutare i clienti a creare data lake unici, in Starburst's soluzione mesh di dati, Informatica soluzione automatizzata per la condivisione dei dati, di Ahana Presto integrazione con Lake Formation, Ascending's custom sistema di governance dei dati, come ha usato PBS machine learning sui loro data lakee come fornisce hc1 approfondimenti sulla salute personalizzati per i clienti.
Puoi rivedere come Lake Formation viene utilizzato dai clienti per costruire moderne architetture dati nei seguenti discorsi su re:Invent 2022:
Il team di Lake Formation ha ascoltato il feedback dei clienti e ha apportato miglioramenti nelle aree della governance dei dati tra account, espandendo l'origine dei data lake, abilitando la governance unificata dei dati di un catalogo di dati aziendali, rendendo possibile la condivisione sicura dei dati business-to-business e espandere l'area di copertura per i controlli di accesso granulari a Amazon RedShift. Nel resto di questo post, siamo felici di condividere i progressi che abbiamo fatto nel 2022.
Miglioramento della governance tra account
Lake Formation fornisce ai clienti la base per condividere i dati tra gli account all'interno della loro organizzazione. Puoi condividere le risorse del catalogo dati di AWS Glue con Gestione dell'identità e dell'accesso di AWS (IAM) all'interno di un account e altri account AWS utilizzando due metodi. Il primo è chiamato metodo della risorsa denominata, in cui gli utenti possono selezionare i nomi dei database e delle tabelle e scegliere il tipo di autorizzazioni da condividere. Il secondo metodo utilizza LF-Tags, in cui gli utenti possono creare e associare LF-Tag a database e tabelle e concedere l'autorizzazione ai principali IAM utilizzando policy ed espressioni LF-Tag.
Nel novembre 2022, Lake Formation ha introdotto la versione 3 del suo funzionalità di condivisione tra account. Con questa nuova versione, gli utenti di Lake Formation possono condividere le risorse del catalogo utilizzando i tag LF in Organizzazioni AWS livello. La condivisione dei dati tramite tag LF aiuta a ridimensionare le autorizzazioni e riduce il lavoro di amministrazione per i creatori di data lake. La versione 3 della condivisione su più account consente inoltre di condividere le risorse con entità IAM specifiche in altri account, fornendo ai proprietari dei dati il controllo su chi può accedere ai propri dati in altri account. Infine, abbiamo rimosso l'overhead della scrittura e della gestione delle policy delle risorse di Data Catalog introducendo Gestore dell'accesso alle risorse AWS (AWS RAM) inviti con policy basate su tag LF nella versione 3 di condivisione tra account. Ti invitiamo a esplorare ulteriormente condivisione tra account in Lake Formation.
Estensione delle autorizzazioni Lake Formation a nuovi dati
Fino a re:Invent 2022, Lake Formation forniva la gestione delle autorizzazioni per le entità IAM sulle risorse del catalogo dati con dati sottostanti principalmente su Servizio di archiviazione semplice Amazon (Amazon S3). A re:Invent 2022, abbiamo introdotto Gestione delle autorizzazioni di Lake Formation per le condivisioni di dati di Amazon Redshift in modalità anteprima. Amazon Redshift è un servizio di data warehouse su scala petabyte completamente gestito nel cloud AWS. Il funzione di condivisione dei dati consente ai proprietari di dati di raggruppare database, tabelle e viste in un cluster Amazon Redshift e condividerli con altri cluster Amazon Redshift all'interno o tra account AWS. La condivisione dei dati riduce la necessità di conservare più copie degli stessi dati in diversi data warehouse per accelerare il processo decisionale aziendale all'interno di un'organizzazione. Lake Formation migliora ulteriormente la condivisione dei dati all'interno delle condivisioni di dati di Amazon Redshift fornendo un controllo degli accessi granulare su tabelle e viste.
Per ulteriori dettagli su questa funzione, fare riferimento a Condivisioni dati Redshift gestite da AWS Lake Formation (anteprima) ed In che modo la condivisione dei dati di Redshift può essere gestita da Lake Formation.
Amazon EMR è una piattaforma cluster gestita per eseguire applicazioni Big Data utilizzando Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto su larga scala. Puoi utilizzare Amazon EMR per eseguire processi di analisi di elaborazione in batch e in streaming sui tuoi data lake S3. A partire dalla versione 6.7.0 di Amazon EMR, abbiamo introdotto Gestione delle autorizzazioni Lake Formation su un ruolo IAM di runtime utilizzato con l'API EMR Steps. Questa funzionalità consente di inviare applicazioni Apache Spark e Apache Hive a un cluster EMR tramite l'API EMR Steps che applica le autorizzazioni a livello di tabella e di colonna utilizzando Lake Formation al ruolo IAM che invia l'applicazione. Questa integrazione di Lake Formation con Amazon EMR ti consente di condividere un cluster EMR tra più utenti in un'organizzazione con autorizzazioni diverse isolando le tue applicazioni tramite un ruolo IAM di runtime. Ti invitiamo a controllare questa funzione nel workshop Lake Formation Integrazione con Amazon EMR utilizzando i ruoli di runtime. Per esplorare un caso d'uso, vedere Presentazione dei ruoli di runtime per le fasi di Amazon EMR: utilizza i ruoli IAM e AWS Lake Formation per il controllo degli accessi con Amazon EMR.
Amazon Sage Maker Studio è un ambiente di sviluppo completamente integrato (IDE) per il machine learning (ML) che consente ai data scientist e agli sviluppatori di preparare i dati per la creazione, l'addestramento, l'ottimizzazione e la distribuzione dei modelli. Studio offre un'integrazione nativa con Amazon EMR in modo che i data scientist e i data engineer possano preparare in modo interattivo i dati su scala petabyte utilizzando framework open source come Apache Spark, Presto e Hive utilizzando i notebook Studio. Con il rilascio di Gestione delle autorizzazioni Lake Formation su un ruolo IAM di runtime, Studio ora supporta l'accesso a livello di tabella e di colonna con Lake Formation. Quando gli utenti si connettono ai cluster EMR dai notebook di Studio, possono scegliere il ruolo IAM (chiamato ruolo IAM di runtime) con cui vogliono connettersi. Se l'accesso ai dati è gestito da Lake Formation, gli utenti possono applicare autorizzazioni a livello di tabella e di colonna utilizzando le policy associate al ruolo di runtime. Per maggiori dettagli, fare riferimento a Applica controlli granulari dell'accesso ai dati con AWS Lake Formation e Amazon EMR da Amazon SageMaker Studio.
Importa e cataloga vari dati
Un solido modello di governance dei dati include i dati provenienti dalle numerose origini dati e dai metodi di un'organizzazione per scoprire e catalogare le varie risorse di dati. I crawler di AWS Glue offrono la possibilità di rilevare i dati da origini tra cui database Amazon S3, Amazon Redshift e NoSQL e di popolare il catalogo dati di AWS Glue.
Nel 2022 abbiamo lanciato Supporto del crawler AWS Glue per Snowflake ed Supporto del crawler AWS Glue per le tabelle Delta Lake. Queste integrazioni consentono ai crawler di AWS Glue di creare e aggiornare le tabelle del catalogo dati in base a queste origini dati popolari. Ciò semplifica ulteriormente la creazione di processi di estrazione, trasformazione e caricamento (ETL) con AWS Glue basati su queste tabelle del catalogo dati come origini e destinazioni.
Nel 2022, l'interfaccia utente dei crawler di AWS Glue è stata riprogettata per offrire una migliore esperienza utente. Uno dei principali miglioramenti apportati come parte di questa revisione sono le maggiori informazioni sulla cronologia del crawler di AWS Glue. L'interfaccia utente della cronologia del crawler fornisce una visualizzazione semplice delle esecuzioni, delle pianificazioni, delle origini dati e dei tag del crawler. Per ogni scansione, la cronologia del crawler offre un riepilogo delle modifiche nello schema del database o delle modifiche alla partizione Amazon S3. La cronologia del crawler fornisce anche informazioni dettagliate sulle ore DPU e riduce il tempo impiegato per l'analisi e il debug delle operazioni e dei costi del crawler. Per esplorare le nuove funzionalità aggiunte all'interfaccia utente dei crawler, fare riferimento a Configura e monitora i crawler di AWS Glue utilizzando l'interfaccia utente avanzata di AWS Glue e la cronologia dei crawler.
Nel 2022, abbiamo anche esteso il supporto per i crawler basati sulle notifiche degli eventi di Amazon S3 per supportare le tabelle del catalogo. Con questa funzionalità, la scansione incrementale può essere scaricata dalle pipeline di dati al crawler AWS Glue pianificato, riducendo le ricerche per indicizzazione a eventi S3 incrementali. Per ulteriori informazioni, fare riferimento a Crea scansioni incrementali di data lake con le tabelle del catalogo di Glue esistenti.
Altri modi per condividere i dati oltre il data lake
Durante re:Invent 2022, abbiamo annunciato un'anteprima di Scambio di dati AWS per AWS Lake Formation, una nuova funzionalità che consente agli abbonati ai dati di trovare e sottoscrivere set di dati di terze parti gestiti direttamente tramite Lake Formation. Finora, Scambio di dati AWS gli abbonati possono accedere a set di dati di terze parti esportando i file dei provider nei propri bucket S3, chiamando le API dei provider tramite Gateway API Amazono interrogando le condivisioni di dati Amazon Redshift dei produttori dal loro cluster Amazon Redshift. Con la nuova integrazione Lake Formation, i fornitori di dati curano i set di dati AWS Data Exchange utilizzando i tag Lake Formation. Gli abbonati ai dati possono eseguire query ed esplorare i database e le tabelle associati a tali tag, proprio come qualsiasi altra risorsa Catalogo dati di AWS Glue. Le organizzazioni possono applicare autorizzazioni Lake Formation basate sulle risorse per condividere i set di dati con licenza all'interno dello stesso account o tra più account utilizzando Gestore di licenze AWS. AWS Data Exchange for Lake Formation semplifica le operazioni di licenza e condivisione dei dati accelerando l'onboarding dei dati, riducendo la quantità di ETL necessaria agli utenti finali per accedere ai dati di terze parti e centralizzando la governance e i controlli di accesso per i dati di terze parti.
A re:Invent 2022, abbiamo anche annunciato Amazon DataZone, un nuovo servizio di gestione dei dati che semplifica e velocizza la catalogazione, l'individuazione, la condivisione e la gestione dei dati archiviati in AWS, in locale e in fonti di terze parti. Amazon DataZone è un servizio di catalogo di dati aziendali che integra i metadati tecnici nel catalogo dati di AWS Glue. Amazon DataZone è integrato con la gestione delle autorizzazioni di Lake Formation in modo da poter gestire e governare in modo efficace l'accesso ai tuoi dati e controllare chi accede a quali dati e per quale scopo. Con il modello editore-abbonato di Amazon DataZone, è possibile condividere e accedere alle risorse di dati tra le regioni. Per ulteriori dettagli sul servizio e le sue funzionalità, fare riferimento al Domande frequenti su Amazon DataZone ed re:Inventa il lancio.
Conclusione
I dati stanno trasformando ogni campo e ogni azienda. Tuttavia, con i dati che crescono più velocemente di quanto la maggior parte delle aziende possa tenere traccia, raccogliere, proteggere e ottenere valore da tali dati è una cosa impegnativa da fare. Una moderna strategia per i dati può aiutarti a creare migliori risultati di business con i dati. AWS fornisce il set di servizi più completo per il percorso dei dati end-to-end per aiutarti a sbloccare il valore dai tuoi dati e trasformarli in insight.
In AWS, lavoriamo a ritroso rispetto ai requisiti dei clienti. Dal team di Lake Formation, abbiamo lavorato duramente per fornire le funzionalità descritte in questo post e ti invitiamo a verificarle. Con la nostra continua attenzione all'innovazione, speriamo di svolgere un ruolo chiave nel consentire alle organizzazioni di creare nuovi modelli di governance dei dati che ti aiutino a ottenere più valore aziendale alla velocità della luce.
Puoi iniziare con Lake Formation esplorando il nostro laboratorio pratico moduli e Tutorial per iniziare. Non vediamo l'ora di sentire la tua opinione, i nostri clienti, sui tuoi casi d'uso di data lake e governance dei dati. Contatta il team dell'account AWS e condividi i tuoi commenti.
Informazioni sugli autori
Jason Berkowitz è Senior Product Manager presso AWS Lake Formation. Proviene da un background in machine learning e architetture di data lake. Aiuta i clienti a diventare guidati dai dati.
Aarthi Srinivasan è Senior Big Data Architect presso AWS Lake Formation. Le piace creare soluzioni di data lake per clienti e partner AWS. Quando non è alla tastiera, esplora le ultime tendenze della scienza e della tecnologia e trascorre del tempo con la sua famiglia.
Leonardo Gomez è un Senior Analytics Specialist Solutions Architect presso AWS. Con sede a Toronto, Canada, ha oltre un decennio di esperienza nella gestione dei dati, aiutando i clienti di tutto il mondo a soddisfare le loro esigenze aziendali e tecniche.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- capacità
- capace
- Chi siamo
- accelerare
- accelerando
- accesso
- Accesso ai dati
- accessibile
- Accedendo
- Il mio account
- conti
- operanti in
- aggiunto
- aggiunta
- aggiuntivo
- indirizzo
- Admin
- Vantaggio
- consente
- Amazon
- Amazon EMR
- Amazon Sage Maker
- quantità
- analitica
- l'analisi
- ed
- ha annunciato
- Apache
- Apache Spark
- api
- API
- Applicazioni
- applicazioni
- APPLICA
- opportuno
- architettura
- RISERVATA
- aree
- in giro
- Attività
- Associate
- associato
- revisione
- AWS
- Colla AWS
- Formazione AWS Lake
- AWS re: Invent
- sfondo
- basato
- diventare
- Meglio
- Al di là di
- Big
- Big Data
- costruire
- costruttore
- costruttori
- Costruzione
- costruito
- affari
- business-to-business
- detto
- chiamata
- Può ottenere
- Canada
- funzionalità
- Custodie
- casi
- catalogo
- CCPA
- sfide
- impegnativo
- Modifiche
- dai un'occhiata
- Cina
- Scegli
- Cloud
- Cluster
- Raccolta
- collezione
- Commenti
- Aziende
- competitivo
- completamento di una
- complesso
- globale
- Connettiti
- continua
- di controllo
- controlli
- Costi
- potuto
- copertura
- crawler
- creare
- costume
- cliente
- Clienti
- dati
- l'accesso ai dati
- ingegnere dei dati
- Scambio di dati
- Lago di dati
- gestione dei dati
- Piattaforma dati
- privacy dei dati
- qualità dei dati
- scienziato di dati
- condivisione dei dati
- strategia di dati
- data warehouse
- data warehouse
- data-driven
- Banca Dati
- banche dati
- dataset
- decennio
- Decision Making
- più profondo
- consegnare
- consegnato
- Delta
- distribuzione
- descritta
- dettagliati
- dettagli
- sviluppatori
- Mercato
- diverso
- direttamente
- scopri
- ogni
- più facile
- Efficace
- in maniera efficace
- che abilita
- Abilita
- consentendo
- incoraggiare
- da un capo all'altro
- ingegnere
- Ingegneri
- migliorata
- Migliora
- garantire
- assicurando
- Ambiente
- Etere (ETH)
- EU
- Anche
- Evento
- eventi
- Ogni
- exchange
- eccitato
- esistente
- espansione
- esperienza
- esplora
- Esplorare
- espressioni
- estratto
- famiglia
- più veloce
- caratteristica
- Caratteristiche
- feedback
- pochi
- campo
- File
- Trovare
- fine
- Nome
- Focus
- i seguenti
- formazione
- Avanti
- Fondazione
- quadri
- da
- completamente
- funzionalità
- ulteriormente
- GDPR
- la generazione di
- ottenere
- ottenere
- globo
- andando
- la governance
- concedere
- maggiore
- Gruppo
- Crescita
- Manovrabilità
- contento
- Hard
- Salute e benessere
- udito
- Aiuto
- aiutare
- aiuta
- storia
- Alveare
- speranza
- ORE
- Come
- Tuttavia
- HTML
- HTTPS
- IAM
- Identità
- implementazione
- importante
- miglioramenti
- migliora
- miglioramento
- in
- In altre
- inclusi
- Compreso
- Aumenta
- sempre più
- info
- informazioni
- intuizione
- intuizioni
- integrato
- integrazione
- integrazioni
- interessato
- introdotto
- l'introduzione di
- invitare
- IT
- Offerte di lavoro
- viaggio
- mantenere
- Le
- lago
- con i più recenti
- lanciato
- leader
- IMPARARE
- apprendimento
- Livello
- Licenza
- Autorizzato
- Licenze
- fulmine
- Velocita della luce
- caricare
- Guarda
- macchina
- machine learning
- fatto
- Principale
- FA
- Fare
- gestire
- gestito
- gestione
- direttore
- molti
- Metadati
- metodo
- metodi
- ML
- Moda
- modello
- modelli
- moderno
- moduli
- Monitorare
- Scopri di più
- maggior parte
- multiplo
- nomi
- nativo
- Bisogno
- esigenze
- New
- nuova funzione
- computer portatili
- notifiche
- Novembre
- Nuovo
- obblighi
- offrire
- Offerte
- Procedura di Onboarding
- ONE
- open source
- Operazioni
- Opportunità
- organizzazione
- organizzazioni
- Altro
- proprio
- proprietari
- parte
- partner
- PBS
- autorizzazione
- permessi
- petabyte
- piattaforma
- Platone
- Platone Data Intelligence
- PlatoneDati
- Giocare
- per favore
- Termini e Condizioni
- Popolare
- lavori
- possibile
- Post
- Preparare
- presentata
- Anteprima
- principalmente
- Privacy
- i processi
- lavorazione
- Prodotto
- product manager
- Progressi
- fornire
- purché
- fornitori
- fornisce
- fornitura
- pubblicato
- scopo
- qualità
- RAM
- RE
- riconoscere
- raccomandare
- riduce
- riducendo
- regioni
- normativa
- normativo
- rilasciare
- rimosso
- necessario
- Requisiti
- risorsa
- Risorse
- REST
- recensioni
- Rischio
- robusto
- Ruolo
- ruoli
- Correre
- Russia
- sagemaker
- stesso
- Scala
- in programma
- Scienze
- Scienza e Tecnologia
- Scienziato
- scienziati
- senza soluzione di continuità
- Secondo
- sicuro
- fissaggio
- anziano
- servizio
- Servizi
- set
- Condividi
- condiviso
- azioni
- compartecipazione
- Un'espansione
- So
- soluzione
- Soluzioni
- Soluzione
- alcuni
- Fonte
- fonti
- Scintilla
- specialista
- specifico
- velocità
- esaurito
- stakeholder
- starburst
- iniziato
- Di partenza
- Passi
- conservazione
- memorizzati
- Strategia
- ruscello
- studio
- inviare
- sottoscrivi
- iscritti
- tale
- riassumere
- SOMMARIO
- supporto
- supporti
- SISTEMI DI TRATTAMENTO
- trattativa
- obiettivi
- team
- le squadre
- Consulenza
- Tecnologia
- I
- L’ORIGINE
- loro
- cosa
- di parti terze standard
- Attraverso
- per tutto
- tempo
- a
- toronto
- toccare
- pista
- Training
- Trasformare
- trasformazione
- tendenze
- TURNO
- ui
- sottostante
- capire
- unificato
- unico
- sbloccare
- Aggiornanento
- uso
- caso d'uso
- Utente
- Esperienza da Utente
- utenti
- APPREZZIAMO
- versione
- Visualizza
- visualizzazioni
- Magazzino
- modi
- Che
- se
- OMS
- entro
- Lavora
- lavorato
- laboratorio
- Corsi
- scrittura
- anno
- Trasferimento da aeroporto a Sharm
- youtube
- zefiro