Guvernanța datelor este o colecție de politici, procese și sisteme pe care organizațiile le folosesc pentru a asigura calitatea și manipularea adecvată a datelor lor pe tot parcursul ciclului de viață, în scopul de a genera valoare de afaceri. Guvernanța datelor este din ce în ce mai importantă pentru clienți, deoarece aceștia recunosc datele ca fiind unul dintre cele mai importante active ale lor. Guvernarea eficientă a datelor permite o mai bună luare a deciziilor prin îmbunătățirea calității datelor, reducerea costurilor de gestionare a datelor și asigurarea accesului securizat la date pentru părțile interesate. În plus, guvernanța datelor este necesară pentru a se conforma unui mediu de reglementare din ce în ce mai complex cu confidențialitatea datelor (cum ar fi GDPR și CCPA) și reglementări privind rezidența datelor (cum ar fi în UE, Rusia și China).
Pentru clienții AWS, guvernarea eficientă a datelor îmbunătățește procesul de luare a deciziilor, crește agilitatea afacerii, oferă un avantaj competitiv și reduce riscul de amenzi din cauza nerespectării obligațiilor de reglementare. Înțelegem oportunitatea unică de a oferi clienților noștri o soluție completă de guvernanță a datelor de la capăt la capăt, care este integrată perfect în portofoliul nostru de servicii și Formația lacului AWS si Catalogul de date AWS Glue sunt cheie pentru rezolvarea acestor provocări.
În această postare, suntem încântați să rezumam caracteristicile pe care AWS Glue Data Catalog, AWS Glue crawler și echipele Lake Formation le-au furnizat în 2022. Am colectat câteva dintre discuțiile și soluțiile cheie despre guvernanța datelor, rețeaua de date și date moderne. arhitectura publicată și prezentată în AWS re:Invent 2022 și câteva soluții de lac de date construite de clienți și parteneri AWS pentru o referință ușoară. Indiferent dacă sunteți un constructor de platforme de date, un inginer de date, un om de știință de date sau orice lider tehnologic interesat de soluții pentru lacurile de date, această postare este pentru dvs.
Pentru a afla mai multe despre cum clienții securizează și partajează date cu Lake Formation, vă recomandăm să mergeți mai adânc în GoDaddy. rețea de date descentralizată, de la Novo Nordisk arhitectură modernă de date, și îmbunătățirile JPMorgan ale acestora Lacul de date federat, o implementare a rețelei de date guvernate folosind Lake Formation. De asemenea, puteți afla cum s-au integrat AWS Partners cu Lake Formation pentru a ajuta clienții să construiască lacuri de date unice, în Starburst soluție de plasă de date, Informatica soluție automată de partajare a datelor, a Ahanei Integrarea Presto cu Lake Formation, obiceiul Crescatorului sistem de guvernare a datelor, cum a folosit PBS învățare automată pe lacurile lor de date, și cum oferă hc1 perspective personalizate de sănătate pentru clienți.
Puteți revizui modul în care Lake Formation este folosită de clienți pentru a construi arhitecturi moderne de date în următoarele discuții re:Invent 2022:
Echipa Lake Formation a ascultat feedback-ul clienților și a făcut îmbunătățiri în domeniile guvernării datelor între conturi, extinzând sursa lacurilor de date, permițând guvernanța unificată a datelor unui catalog de date de afaceri, făcând posibilă partajarea securizată a datelor de la întreprindere la întreprindere și extinderea zonei de acoperire pentru controale fine de acces la Amazon RedShift. În restul acestei postări, suntem bucuroși să împărtășim progresele înregistrate în 2022.
Îmbunătățirea guvernanței între conturi
Lake Formation oferă clienților baza pentru a partaja date între conturile din cadrul organizației lor. Le puteți partaja resurselor AWS Glue Data Catalog Gestionarea identității și accesului AWS (IAM) directori într-un cont, precum și alte conturi AWS folosind două metode. Prima se numește metoda cu resursă numită, în care utilizatorii pot selecta numele bazelor de date și tabelelor și pot alege tipul de permisiuni de partajat. A doua metodă utilizează LF-Tags, în care utilizatorii pot crea și asocia LF-Tag-uri la baze de date și tabele și pot acorda permisiunea principalilor IAM folosind politicile și expresiile LF-Tag.
În noiembrie 2022, Lake Formation a introdus versiunea 3 a acesteia funcția de partajare pe mai multe conturi. Cu această nouă versiune, utilizatorii Lake Formation pot partaja resurse de catalog folosind LF-Tags la Organizații AWS nivel. Partajarea datelor folosind etichetele LF ajută la scalarea permisiunilor și reduce munca de administrare pentru constructorii de lacuri de date. Versiunea 3 de partajare între conturi vă permite, de asemenea, să partajați resurse anumitor directori IAM din alte conturi, oferind proprietarilor de date control asupra cine le poate accesa datele în alte conturi. În cele din urmă, am eliminat costul general de scriere și menținere a politicilor de resurse Data Catalog prin introducerea Manager de acces la resurse AWS (AWS RAM) invită cu politici bazate pe LF-Tags în versiunea 3 de partajare între conturi. Vă încurajăm să explorați în continuare partajarea între conturi în Lake Formation.
Extinderea permisiunilor Lake Formation la date noi
Până la re:Invent 2022, Lake Formation a furnizat gestionarea permisiunilor directorilor IAM pentru resursele Data Catalog, cu date subiacente în principal pe Serviciul Amazon de stocare simplă (Amazon S3). La re:Invent 2022, am prezentat Gestionarea permisiunilor Lake Formation pentru partajarea datelor Amazon Redshift în modul de previzualizare. Amazon Redshift este un serviciu de depozit de date complet gestionat, la scară de petaocteți, în AWS Cloud. The caracteristica de partajare a datelor permite proprietarilor de date să grupeze baze de date, tabele și vizualizări într-un cluster Amazon Redshift și să le partajeze cu alte clustere Amazon Redshift în sau între conturi AWS. Partajarea datelor reduce nevoia de a păstra mai multe copii ale acelorași date în diferite depozite de date pentru a accelera procesul de luare a deciziilor de afaceri în cadrul unei organizații. Lake Formation îmbunătățește și mai mult partajarea datelor în cadrul partajărilor de date Amazon Redshift, oferind un control precis al accesului pe tabele și vizualizări.
Pentru detalii suplimentare despre această caracteristică, consultați Partajări de date Redshift gestionate de AWS Lake Formation (previzualizare) și Cum poate fi gestionată partajarea datelor Redshift de către Lake Formation.
Amazon EMR este o platformă de cluster gestionată pentru a rula aplicații de date mari folosind Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi și Presto la scară. Puteți folosi Amazon EMR pentru a rula joburi de analiză de procesare în loturi și în flux pe lacurile dvs. de date S3. Începând cu Amazon EMR versiunea 6.7.0, am prezentat Gestionarea permisiunilor Lake Formation pe un rol IAM de execuție utilizat cu API-ul EMR Steps. Această caracteristică vă permite să trimiteți aplicații Apache Spark și Apache Hive la un cluster EMR prin API-ul EMR Steps, care impune permisiuni la nivel de tabel și la nivel de coloană folosind Lake Formation pentru rolul IAM respectiv care trimite aplicația. Această integrare Lake Formation cu Amazon EMR vă permite să partajați un cluster EMR la mai mulți utilizatori dintr-o organizație cu permisiuni diferite prin izolarea aplicațiilor printr-un rol IAM de execuție. Vă încurajăm să verificați această caracteristică în atelierul de formare a lacului Integrare cu Amazon EMR utilizând rolurile de rulare. Pentru a explora un caz de utilizare, consultați Introducerea rolurilor de rulare pentru pașii Amazon EMR: utilizați rolurile IAM și AWS Lake Formation pentru controlul accesului cu Amazon EMR.
Amazon SageMaker Studio este un mediu de dezvoltare complet integrat (IDE) pentru învățarea automată (ML) care permite cercetătorilor și dezvoltatorilor de date să pregătească date pentru construirea, antrenamentul, reglarea și implementarea modelelor. Studio oferă o integrare nativă cu Amazon EMR, astfel încât oamenii de știință de date și inginerii de date să poată pregăti în mod interactiv datele la scară de petaocteți folosind cadre open-source precum Apache Spark, Presto și Hive folosind notebook-uri Studio. Odată cu eliberarea lui Gestionarea permisiunilor Lake Formation pe un rol IAM de execuție, Studio acceptă acum acces la nivel de tabel și la nivel de coloană cu Lake Formation. Atunci când utilizatorii se conectează la clusterele EMR din blocnotesurile Studio, pot alege rolul IAM (numit rol IAM de rulare) cu care doresc să se conecteze. Dacă accesul la date este gestionat de Lake Formation, utilizatorii pot impune permisiuni la nivel de tabel și la nivel de coloană folosind politici atașate rolului de rulare. Pentru mai multe detalii, consultați Aplicați controale detaliate de acces la date cu AWS Lake Formation și Amazon EMR de la Amazon SageMaker Studio.
Ingerați și catalogați date variate
Un model robust de guvernanță a datelor include date din numeroasele surse de date și metode ale unei organizații pentru a descoperi și cataloga acele active de date variate. Crawlerele AWS Glue oferă capacitatea de a descoperi date din surse, inclusiv bazele de date Amazon S3, Amazon Redshift și NoSQL, și de a popula catalogul de date AWS Glue.
În 2022, ne-am lansat Suport pentru crawler AWS Glue pentru Snowflake și Suport pentru crawler AWS Glue pentru mesele Delta Lake. Aceste integrări permit crawlerilor AWS Glue să creeze și să actualizeze tabele Data Catalog pe baza acestor surse de date populare. Acest lucru face și mai ușor să creați joburi de extragere, transformare și încărcare (ETL) cu AWS Glue pe baza acestor tabele Data Catalog ca surse și ținte.
În 2022, interfața de utilizare a crawlerelor AWS Glue a fost reproiectată pentru a oferi o experiență mai bună pentru utilizator. Una dintre principalele îmbunătățiri oferite ca parte a acestei revizuiri este o perspectivă mai bună asupra istoricului crawlerelor AWS Glue. Interfața de utilizare a istoricului crawler-ului oferă o vizualizare simplă a rulărilor, programelor, surselor de date și etichetelor crawler-ului. Pentru fiecare accesare cu crawlere, istoricul crawlerului oferă un rezumat al modificărilor din schema bazei de date sau ale modificărilor partiției Amazon S3. Istoricul crawler-ului oferă, de asemenea, informații detaliate despre orele DPU și reduce timpul petrecut analizând și depanând operațiunile și costurile crawler-ului. Pentru a explora noile funcționalități adăugate la interfața de utilizare a crawlerelor, consultați Configurați și monitorizați crawlerele AWS Glue folosind interfața de utilizare îmbunătățită AWS Glue și istoricul crawlerelor.
În 2022, am extins, de asemenea, suportul pentru crawlerele bazate pe notificări de evenimente Amazon S3 pentru a accepta tabele de catalog. Cu această caracteristică, accesarea cu crawlere incrementală poate fi descărcată din conductele de date în crawler-ul programat AWS Glue, reducând accesările cu crawlere la evenimente S3 incrementale. Pentru mai multe informații, consultați Creați accesări incrementale ale lacurilor de date cu tabelele de catalog Glue existente.
Mai multe moduri de a partaja date dincolo de lacul de date
În timpul re:Invent 2022, am anunțat o previzualizare a Schimb de date AWS pentru AWS Lake Formation, o nouă caracteristică care permite abonaților de date să găsească și să se aboneze la seturi de date terță parte care sunt gestionate direct prin Lake Formation. Până acum, Schimb de date AWS abonații ar putea accesa seturi de date terță parte exportând fișierele furnizorilor în propriile lor compartimente S3, apelând API-urile furnizorilor prin Gateway API Amazon, sau interogând cotele de date Amazon Redshift ale producătorilor din clusterul lor Amazon Redshift. Odată cu noua integrare Lake Formation, furnizorii de date organizează seturi de date AWS Data Exchange folosind etichete Lake Formation. Abonații de date pot interoga și explora bazele de date și tabelele asociate cu acele etichete, la fel ca orice altă resursă AWS Glue Data Catalog. Organizațiile pot aplica permisiuni Lake Formation bazate pe resurse pentru a partaja seturile de date licențiate în același cont sau între conturi folosind Manager de licență AWS. AWS Data Exchange for Lake Formation eficientizează operațiunile de acordare a licențelor și de partajare a datelor, accelerând integrarea datelor, reducând cantitatea de ETL necesară utilizatorilor finali pentru a accesa datele de la terți și centralizând guvernanța și controalele de acces pentru datele terțe.
La re:Invent 2022, am anunțat și noi Amazon DataZone, un nou serviciu de gestionare a datelor care vă ajută să catalogați, să descoperiți, să partajați și să guvernați datele stocate în surse AWS, locale și terțe. Amazon DataZone este un serviciu de catalog de date de afaceri care completează metadatele tehnice din Catalogul de date AWS Glue. Amazon DataZone este integrat cu gestionarea permisiunilor Lake Formation, astfel încât să puteți gestiona și guverna eficient accesul la datele dvs. și să auditați cine accesează ce date și în ce scop. Cu modelul editor-abonat al Amazon DataZone, activele de date pot fi partajate și accesate în toate regiunile. Pentru detalii suplimentare despre serviciu și capacitățile acestuia, consultați Întrebări frecvente Amazon DataZone și re:Inventează lansarea.
Concluzie
Datele transformă fiecare domeniu și fiecare afacere. Cu toate acestea, având în vedere că datele cresc mai rapid decât pot urmări majoritatea companiilor, colectarea, securizarea și obținerea valorii acestor date este un lucru dificil de făcut. O strategie modernă de date vă poate ajuta să creați rezultate mai bune în afaceri cu date. AWS oferă cel mai complet set de servicii pentru călătoria de la un capăt la altul al datelor, pentru a vă ajuta să deblocați valoare din datele dvs. și să o transformați în perspectivă.
La AWS, lucrăm înapoi de la cerințele clienților. Din echipa Lake Formation, am muncit din greu pentru a oferi caracteristicile descrise în această postare și vă invităm să le verificați. Având în vedere concentrarea continuă asupra inventării, sperăm să jucăm un rol cheie în împuternicirea organizațiilor pentru a construi noi modele de guvernanță a datelor care vă ajută să obțineți mai multă valoare de afaceri la viteza fulgerului.
Puteți începe cu Lake Formation prin explorarea noastră atelier practic module şi Tutoriale de început. Așteptăm cu nerăbdare să auzim de la dumneavoastră, clienții noștri, despre lacul dumneavoastră de date și cazurile de utilizare a guvernării datelor. Vă rugăm să luați legătura prin intermediul echipei dvs. de cont AWS și să vă împărtășiți comentariile.
Despre Autori
Jason Berkowitz este Senior Product Manager la AWS Lake Formation. El provine dintr-o experiență în învățarea automată și arhitecturile lacurilor de date. El îi ajută pe clienți să devină bazați pe date.
Aarthi Srinivasan este arhitect senior Big Data cu AWS Lake Formation. Îi place să construiască soluții de lac de date pentru clienții și partenerii AWS. Când nu este pe tastatură, ea explorează cele mai recente tendințe din știință și tehnologie și își petrece timpul cu familia.
Leonardo Gomez este arhitect de soluții Senior Analytics Specialist la AWS. Cu sediul în Toronto, Canada, are peste un deceniu de experiență în gestionarea datelor, ajutând clienții din întreaga lume să își răspundă nevoilor de afaceri și tehnice.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- capacitate
- Capabil
- Despre Noi
- accelera
- accelerarea
- acces
- Acces la date
- accesate
- accesarea
- Cont
- Conturi
- peste
- adăugat
- plus
- Suplimentar
- adresa
- admin
- Avantaj
- permite
- Amazon
- Amazon EMR
- Amazon SageMaker
- sumă
- Google Analytics
- analiza
- și
- a anunțat
- Apache
- Apache Spark
- api
- API-uri
- aplicație
- aplicatii
- Aplică
- adecvat
- arhitectură
- ZONĂ
- domenii
- în jurul
- Bunuri
- Avocat Colaborator
- asociate
- de audit
- AWS
- AWS Adeziv
- Formația lacului AWS
- AWS re: Inventează
- fundal
- bazat
- deveni
- Mai bine
- Dincolo de
- Mare
- Datele mari
- construi
- constructor
- constructori
- Clădire
- construit
- afaceri
- afaceri la afaceri
- denumit
- apel
- Poate obține
- Canada
- capacități
- caz
- cazuri
- catalog
- CJAP
- provocări
- provocare
- Modificări
- verifica
- China
- Alege
- Cloud
- Grup
- Colectare
- colectare
- comentarii
- Companii
- competitiv
- Completă
- complex
- cuprinzător
- Conectați
- a continuat
- Control
- controale
- Cheltuieli
- ar putea
- acoperire
- tractor pe şenile
- crea
- personalizat
- client
- clienţii care
- de date
- accesul la date
- inginer de date
- Schimb de date
- Lacul de date
- management de date
- Platforma de date
- confidențialitatea datelor
- calitatea datelor
- om de știință de date
- schimbul de date
- strategie de date
- depozit de date
- depozite de date
- Pe bază de date
- Baza de date
- baze de date
- seturi de date
- deceniu
- Luarea deciziilor
- Mai adânc
- livra
- livrate
- Deltă
- Implementarea
- descris
- detaliat
- detalii
- Dezvoltatorii
- Dezvoltare
- diferit
- direct
- descoperi
- fiecare
- mai ușor
- Eficace
- în mod eficient
- împuternicirea
- permite
- permițând
- încuraja
- un capăt la altul
- inginer
- inginerii
- sporită
- Îmbunătăţeşte
- asigura
- asigurare
- Mediu inconjurator
- Eter (ETH)
- EU
- Chiar
- eveniment
- evenimente
- Fiecare
- schimb
- excitat
- existent
- extinderea
- experienţă
- explora
- Explorarea
- expresii
- extrage
- familie
- mai repede
- Caracteristică
- DESCRIERE
- feedback-ul
- puțini
- camp
- Fişiere
- Găsi
- capăt
- First
- Concentra
- următor
- formare
- Înainte
- Fundație
- cadre
- din
- complet
- funcționalități
- mai mult
- GDPR
- generator
- obține
- obtinerea
- glob
- merge
- guvernare
- acordarea
- mai mare
- grup
- În creştere
- Manipularea
- fericit
- Greu
- Sănătate
- auz
- ajutor
- ajutor
- ajută
- istorie
- Stup
- speranţă
- ORE
- Cum
- Totuși
- HTML
- HTTPS
- IAM
- Identitate
- implementarea
- important
- îmbunătățiri
- îmbunătăţeşte
- îmbunătățirea
- in
- În altele
- include
- Inclusiv
- Creșteri
- tot mai mult
- info
- informații
- înţelegere
- perspective
- integrate
- integrare
- integrările
- interesat
- introdus
- introducerea
- invita
- IT
- Locuri de munca
- călătorie
- A pastra
- Cheie
- lac
- Ultimele
- a lansat
- lider
- AFLAȚI
- învăţare
- Nivel
- Licență
- Autorizat
- de licențiere
- fulger
- Viteza luminii
- încărca
- Uite
- maşină
- masina de învățare
- făcut
- Principal
- FACE
- Efectuarea
- administra
- gestionate
- administrare
- manager
- multe
- Metadata
- metodă
- Metode
- ML
- mod
- model
- Modele
- Modern
- Module
- monitor
- mai mult
- cele mai multe
- multiplu
- nume
- nativ
- Nevoie
- nevoilor
- Nou
- optiune noua
- notebook-uri
- notificări
- noiembrie
- Nou
- obligațiuni
- oferi
- promoții
- La imbarcare
- ONE
- open-source
- Operațiuni
- Oportunitate
- organizație
- organizații
- Altele
- propriu
- Proprietarii
- parte
- parteneri
- PBS
- permisiune
- permisiuni
- petabyte
- platformă
- Plato
- Informații despre date Platon
- PlatoData
- Joaca
- "vă rog"
- Politicile
- Popular
- portofoliu
- posibil
- Post
- Pregăti
- prezentat
- Anunţ
- în primul rând
- intimitate
- procese
- prelucrare
- Produs
- manager de produs
- Progres
- furniza
- prevăzut
- furnizori
- furnizează
- furnizarea
- publicat
- scop
- calitate
- RAM
- RE
- recunoaște
- recomanda
- reduce
- reducerea
- regiuni
- regulament
- autoritățile de reglementare
- eliberaţi
- îndepărtat
- necesar
- Cerinţe
- resursă
- Resurse
- REST
- revizuiască
- Risc
- robust
- Rol
- rolurile
- Alerga
- Rusia
- sagemaker
- acelaşi
- Scară
- programată
- Ştiinţă
- Ştiinţă şi Tehnologie
- Om de stiinta
- oamenii de stiinta
- perfect
- Al doilea
- sigur
- asigurarea
- senior
- serviciu
- Servicii
- set
- Distribuie
- comun
- Acțiuni
- partajarea
- simplu
- So
- soluţie
- soluţii
- Rezolvarea
- unele
- Sursă
- Surse
- Scânteie
- specialist
- specific
- viteză
- uzat
- părțile interesate
- Starburst
- început
- Pornire
- paşi
- depozitare
- stocate
- Strategie
- curent
- studio
- prezenta
- subscrie
- abonați
- astfel de
- rezuma
- REZUMAT
- a sustine
- Sprijină
- sisteme
- Tratative
- obiective
- echipă
- echipe
- Tehnic
- Tehnologia
- Sursa
- lor
- lucru
- terț
- Prin
- de-a lungul
- timp
- la
- Toronto
- atingeţi
- urmări
- Pregătire
- Transforma
- transformare
- Tendinţe
- ÎNTORCĂ
- ui
- care stau la baza
- înţelege
- unificat
- unic
- deschide
- Actualizează
- utilizare
- carcasa de utilizare
- Utilizator
- Experiența de utilizare
- utilizatorii
- valoare
- versiune
- Vizualizare
- vizualizari
- Depozit
- modalități de
- Ce
- dacă
- OMS
- în
- Apartamente
- a lucrat
- atelier
- Ateliere
- scris
- an
- Ta
- youtube
- zephyrnet