Upravljanje podatkov je zbirka politik, procesov in sistemov, ki jih organizacije uporabljajo za zagotavljanje kakovosti in ustreznega ravnanja s svojimi podatki skozi njihov življenjski cikel z namenom ustvarjanja poslovne vrednosti. Stranke vedno bolj skrbijo za upravljanje podatkov, saj prepoznavajo podatke kot eno svojih najpomembnejših sredstev. Učinkovito upravljanje podatkov omogoča boljše odločanje z izboljšanjem kakovosti podatkov, zmanjšanjem stroškov upravljanja podatkov in zagotavljanjem varnega dostopa do podatkov za deležnike. Poleg tega je upravljanje podatkov potrebno za skladnost z vedno bolj zapletenim regulativnim okoljem z zasebnostjo podatkov (kot sta GDPR in CCPA) in predpisi o rezidenčnosti podatkov (kot v EU, Rusiji in na Kitajskem).
Za stranke AWS učinkovito upravljanje podatkov izboljšuje odločanje, povečuje poslovno agilnost, zagotavlja konkurenčno prednost in zmanjšuje tveganje glob zaradi neizpolnjevanja regulativnih obveznosti. Razumemo edinstveno priložnost, da našim strankam ponudimo celovito rešitev za upravljanje podatkov od konca do konca, ki je brezhibno integrirana v naš portfelj storitev, in Oblikovanje jezera AWS in Katalog podatkov o lepilu AWS so ključni za reševanje teh izzivov.
V tej objavi z veseljem povzemamo funkcije, ki so jih ekipe AWS Glue Data Catalog, AWS Glue crawler in Lake Formation zagotovile leta 2022. Zbrali smo nekaj ključnih pogovorov in rešitev o upravljanju podatkov, podatkovni mreži in sodobnih podatkih arhitektura, objavljena in predstavljena v AWS re:Invent 2022, in nekaj rešitev podatkovnega jezera, ki so jih zgradili kupci in partnerji AWS za lažjo uporabo. Ne glede na to, ali ste graditelj podatkovne platforme, podatkovni inženir, podatkovni znanstvenik ali kateri koli tehnološki vodja, ki ga zanimajo rešitve podatkovnega jezera, je ta objava za vas.
Če želite izvedeti več o tem, kako stranke varujejo in delijo podatke z Lake Formation, priporočamo, da se poglobite v GoDaddy's decentralizirano podatkovno mrežo, Novo Nordisk sodobna podatkovna arhitektura, in JPMorganove izboljšave za njihovo Federated Data Lake, implementacija nadzorovane podatkovne mreže z uporabo Lake Formation. Prav tako lahko izveste, kako so se partnerji AWS integrirali z Lake Formation, da bi strankam pomagali zgraditi edinstvena podatkovna jezera, v Starburstu rešitev podatkovne mreže, Informatica's avtomatizirana rešitev za izmenjavo podatkov, Ahanina Integracija Presto z Lake Formation, Naraščajoči običaj sistem upravljanja podatkov, kako se uporablja PBS strojno učenje na svojih podatkovnih jezerih, in kako hc1 zagotavlja osebni vpogled v zdravje za stranke.
Ogledate si lahko, kako stranke uporabljajo Lake Formation za gradnjo sodobne podatkovne arhitekture v naslednjih pogovorih re:Invent 2022:
Ekipa Lake Formation je prisluhnila povratnim informacijam strank in naredila izboljšave na področjih upravljanja podatkov med računi, razširila vir podatkovnih jezer, omogočila enotno upravljanje podatkov kataloga poslovnih podatkov, omogočila varno izmenjavo podatkov med podjetji in razširitev območja pokritosti za natančne kontrole dostopa do Amazon RedShift. V nadaljevanju te objave z veseljem delimo napredek, ki smo ga dosegli v letu 2022.
Izboljšanje upravljanja med računi
Lake Formation strankam zagotavlja osnovo za izmenjavo podatkov med računi v njihovi organizaciji. Vire AWS Glue Data Catalog lahko delite z AWS upravljanje identitete in dostopa (IAM) glavnice znotraj računa kot tudi druge račune AWS z uporabo dveh metod. Prva se imenuje metoda imenovanega vira, kjer lahko uporabniki izberejo imena baz podatkov in tabel ter izberejo vrsto dovoljenj za skupno rabo. Druga metoda uporablja LF-Tags, kjer lahko uporabniki ustvarijo in povežejo LF-Tags z bazami podatkov in tabelami ter podelijo dovoljenje glavnim IAM z uporabo pravilnikov in izrazov LF-Tag.
Novembra 2022 je Lake Formation predstavil različico 3 svojega funkcija skupne rabe med računi. S to novo različico lahko uporabniki Lake Formation delijo kataloške vire z uporabo LF-oznak na AWS organizacije raven. Skupna raba podatkov z uporabo oznak LF pomaga povečati dovoljenja in zmanjša skrbniško delo za graditelje podatkovnega jezera. Skupna raba med računi različice 3 vam omogoča tudi skupno rabo virov z določenimi glavnimi IAM v drugih računih, kar lastnikom podatkov omogoča nadzor nad tem, kdo lahko dostopa do njihovih podatkov v drugih računih. Nazadnje smo odstranili stroške pisanja in vzdrževanja pravilnikov o virih podatkovnega kataloga z uvedbo Upravitelj dostopa do virov AWS (AWS RAM) povabi s pravilniki, ki temeljijo na oznakah LF, v različici 3 za skupno rabo med računi. Priporočamo vam, da dodatno raziščete navzkrižno skupno rabo računov v Lake Formation.
Razširitev dovoljenj Lake Formation na nove podatke
Do re:Invent 2022 je Lake Formation zagotavljal upravljanje dovoljenj za principale IAM za vire podatkovnega kataloga z osnovnimi podatki predvsem na Preprosta storitev shranjevanja Amazon (Amazon S3). Na re:Invent 2022 smo predstavili Upravljanje dovoljenj Lake Formation za skupno rabo podatkov Amazon Redshift v načinu predogleda. Amazon Redshift je popolnoma upravljana storitev skladiščenja podatkov v velikosti petabajtov v oblaku AWS. The funkcija deljenja podatkov lastnikom podatkov omogoča združevanje baz podatkov, tabel in pogledov v gruči Amazon Redshift in njihovo skupno rabo z drugimi gruči Amazon Redshift znotraj ali med računi AWS. Skupna raba podatkov zmanjša potrebo po hrambi več kopij istih podatkov v različnih podatkovnih skladiščih, da se pospeši poslovno odločanje v organizaciji. Lake Formation dodatno izboljša skupno rabo podatkov v skupnih rabah podatkov Amazon Redshift z zagotavljanjem natančnega nadzora dostopa do tabel in pogledov.
Za dodatne podrobnosti o tej funkciji glejte Deljenje podatkov Redshift, ki ga upravlja AWS Lake Formation (predogled) in Kako lahko Lake Formation upravlja skupno rabo podatkov Redshift.
Amazonski EMR je upravljana platforma gruče za izvajanje velikih podatkovnih aplikacij z uporabo Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi in Presto v velikem obsegu. Amazon EMR lahko uporabite za izvajanje analitičnih poslov paketne in pretočne obdelave na vaših podatkovnih jezerih S3. Začenši z izdajo Amazon EMR 6.7.0, smo predstavili Upravljanje dovoljenj Lake Formation v vlogi IAM izvajalnega okolja uporablja z API-jem EMR Steps. Ta funkcija vam omogoča, da predložite aplikacije Apache Spark in Apache Hive v gručo EMR prek API-ja EMR Steps, ki uveljavlja dovoljenja na ravni tabele in na ravni stolpca z uporabo Lake Formation tej vlogi IAM, ki pošilja aplikacijo. Ta integracija Lake Formation z Amazon EMR vam omogoča skupno rabo gruče EMR med več uporabniki v organizaciji z različnimi dovoljenji, tako da izolirate svoje aplikacije prek vloge izvajalnega IAM. Svetujemo vam, da to funkcijo preverite v delavnici Nastanek jezera Integracija z Amazon EMR z uporabo izvajalnih vlog. Če želite raziskati primer uporabe, glejte Predstavljamo vloge izvajalnega okolja za korake Amazon EMR: uporabite vloge IAM in AWS Lake Formation za nadzor dostopa z Amazon EMR.
Amazon SageMaker Studio je popolnoma integrirano razvojno okolje (IDE) za strojno učenje (ML), ki znanstvenikom in razvijalcem podatkov omogoča pripravo podatkov za gradnjo, usposabljanje, prilagajanje in uvajanje modelov. Studio ponuja izvorno integracijo z Amazon EMR, tako da lahko podatkovni znanstveniki in podatkovni inženirji interaktivno pripravljajo podatke v velikosti petabajtov z uporabo odprtokodnih ogrodij, kot so Apache Spark, Presto in Hive, z uporabo prenosnih računalnikov Studio. Z izdajo Upravljanje dovoljenj Lake Formation v vlogi IAM izvajalnega okolja, Studio zdaj podpira dostop na ravni tabele in na ravni stolpca z Lake Formation. Ko se uporabniki povežejo z gruči EMR iz prenosnih računalnikov Studio, lahko izberejo vlogo IAM (imenovano izvajalna vloga IAM), s katerim se želijo povezati. Če dostop do podatkov upravlja Lake Formation, lahko uporabniki uveljavijo dovoljenja na ravni tabele in na ravni stolpca z uporabo pravilnikov, priloženih vlogi izvajalnega okolja. Za več podrobnosti glejte Uporabite natančne kontrole dostopa do podatkov z AWS Lake Formation in Amazon EMR iz Amazon SageMaker Studio.
Zaužijte in katalogizirajte različne podatke
Robusten model upravljanja podatkov vključuje podatke iz številnih virov podatkov organizacije in metode za odkrivanje in katalogiziranje teh različnih podatkovnih sredstev. Pajki AWS Glue omogočajo odkrivanje podatkov iz virov, vključno z zbirkami podatkov Amazon S3, Amazon Redshift in NoSQL, ter zapolnjujejo podatkovni katalog AWS Glue.
Leta 2022 smo lansirali Podpora pajku AWS Glue za Snowflake in Podpora pajku AWS Glue za tabele Delta Lake. Te integracije pajkom AWS Glue omogočajo ustvarjanje in posodabljanje tabel Data Catalog na podlagi teh priljubljenih podatkovnih virov. To še poenostavi ustvarjanje opravil ekstrahiranja, preoblikovanja in nalaganja (ETL) z AWS Glue na podlagi teh tabel podatkovnega kataloga kot virov in ciljev.
Leta 2022 je bil uporabniški vmesnik pajkov AWS Glue preoblikovan, da bi ponudil boljšo uporabniško izkušnjo. Ena od glavnih izboljšav, dobavljenih kot del te revizije, je boljši vpogled v zgodovino pajka AWS Glue. Uporabniški vmesnik zgodovine pajka omogoča preprost pregled potekov pajka, urnikov, podatkovnih virov in oznak. Za vsako pajkanje zgodovina pajka ponuja povzetek sprememb v shemi baze podatkov ali sprememb particije Amazon S3. Zgodovina pajka zagotavlja tudi podrobne informacije o urah DPU in zmanjša čas, porabljen za analizo in odpravljanje napak v operacijah pajka ter stroške. Če želite raziskati nove funkcije, dodane uporabniškemu vmesniku pajkov, glejte Nastavite in spremljajte pajke AWS Glue z uporabo izboljšanega uporabniškega vmesnika AWS Glue in zgodovine pajkov.
Leta 2022 smo razširili tudi podporo za pajke, ki temeljijo na obvestilih o dogodkih Amazon S3, da bi podprli kataloške tabele. S to funkcijo je mogoče inkrementalno pajkanje prenesti iz podatkovnih cevovodov v načrtovanega pajka AWS Glue, kar zmanjša pajkanje na inkrementalne dogodke S3. Za več informacij glejte Zgradite postopna pajkanja podatkovnih jezer z obstoječimi kataloškimi tabelami Glue.
Več načinov za skupno rabo podatkov zunaj podatkovnega jezera
Med re:Invent 2022 smo napovedali predogled Izmenjava podatkov AWS za AWS Lake Formation, nova funkcija, ki naročnikom podatkov omogoča iskanje in naročanje na nabore podatkov tretjih oseb, ki se upravljajo neposredno prek Lake Formation. Do zdaj, Izmenjava podatkov AWS naročniki lahko dostopajo do naborov podatkov tretjih oseb tako, da izvozijo datoteke ponudnikov v lastna vedra S3 in kličejo API-je ponudnikov prek Amazon API Gateway, ali poizvedovanje po skupnih rabah podatkov Amazon Redshift proizvajalcev iz njihove gruče Amazon Redshift. Z novo integracijo Lake Formation ponudniki podatkov kurirajo nabore podatkov AWS Data Exchange z uporabo oznak Lake Formation. Naročniki podatkov lahko poizvedujejo in raziskujejo baze podatkov in tabele, povezane s temi oznakami, tako kot kateri koli drug vir AWS Glue Data Catalog. Organizacije lahko uporabijo dovoljenja Lake Formation, ki temeljijo na virih, za skupno rabo licenčnih naborov podatkov znotraj istega računa ali med računi z uporabo Upravitelj licenc AWS. AWS Data Exchange for Lake Formation poenostavi operacije licenciranja in deljenja podatkov s pospeševanjem vkrcanja podatkov, zmanjšanjem količine ETL, ki je potrebna za dostop končnih uporabnikov do podatkov tretjih oseb, ter centralizacijo upravljanja in nadzora dostopa do podatkov tretjih oseb.
Na re:Invent 2022 smo tudi napovedali Amazon DataZone, nova storitev za upravljanje podatkov, ki vam omogoča hitrejše in preprostejše katalogiziranje, odkrivanje, skupno rabo in upravljanje podatkov, shranjenih v AWS, lokalnih virih in virih tretjih oseb. Amazon DataZone je storitev kataloga poslovnih podatkov, ki dopolnjuje tehnične metapodatke v katalogu podatkov AWS Glue. Amazon DataZone je integriran z upravljanjem dovoljenj Lake Formation, tako da lahko učinkovito upravljate in upravljate dostop do svojih podatkov ter nadzirate, kdo dostopa do katerih podatkov in za kakšen namen. Z modelom založnik-naročnik Amazon DataZone se lahko podatkovna sredstva delijo in do njih dostopa po regijah. Za dodatne podrobnosti o storitvi in njenih zmogljivostih glejte Pogosta vprašanja o Amazon DataZone in re: Invent zagon.
zaključek
Podatki spreminjajo vsako področje in vsako podjetje. Ker pa podatki rastejo hitreje, kot jih večina podjetij lahko spremlja, je zbiranje, varovanje in pridobivanje vrednosti teh podatkov izziv. Sodobna podatkovna strategija vam lahko pomaga ustvariti boljše poslovne rezultate s podatki. AWS ponuja najpopolnejši nabor storitev za potovanje podatkov od konca do konca, ki vam pomaga odkleniti vrednost vaših podatkov in jih spremeniti v vpogled.
Pri AWS delamo nazaj od zahtev strank. Iz ekipe Lake Formation smo trdo delali, da smo zagotovili funkcije, opisane v tej objavi, in vabimo vas, da jih preverite. Z našo stalno osredotočenostjo na izume upamo, da bomo igrali ključno vlogo pri opolnomočenju organizacij za izgradnjo novih modelov upravljanja podatkov, ki vam pomagajo pridobiti večjo poslovno vrednost z bliskovito hitrostjo.
Z nastankom jezera lahko začnete z raziskovanjem našega praktična delavnica moduli in Vadnice za začetek. Veselimo se vašega odziva, naših strank, o primerih uporabe podatkovnega jezera in upravljanja podatkov. Stopite v stik prek svoje ekipe za račun AWS in delite svoje komentarje.
O avtorjih
Jason Berkowitz je višji produktni vodja pri AWS Lake Formation. Prihaja iz ozadja strojnega učenja in arhitektur podatkovnih jezer. Strankam pomaga, da postanejo usmerjene na podatke.
Aarthi Srinivasan je višji arhitekt za velike podatke pri AWS Lake Formation. Uživa v gradnji rešitev podatkovnega jezera za stranke in partnerje AWS. Ko ni na tipkovnici, raziskuje najnovejše znanstvene in tehnološke trende in preživlja čas s svojo družino.
Leonardo Gomez je višji arhitekt za rešitve strokovnjaka za analitiko pri AWS. S sedežem v Torontu v Kanadi ima več kot desetletje izkušenj z upravljanjem podatkov in pomaga strankam po vsem svetu pri reševanju njihovih poslovnih in tehničnih potreb.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- sposobnost
- Sposobna
- O meni
- pospeši
- pospeševanje
- dostop
- Dostop do podatkov
- dostopna
- Dostop
- Račun
- računi
- čez
- dodano
- Poleg tega
- Dodatne
- Naslov
- admin
- Prednost
- omogoča
- Amazon
- Amazonski EMR
- Amazon SageMaker
- znesek
- analitika
- analiziranje
- in
- razglasitve
- Apache
- Apache Spark
- API
- API-ji
- uporaba
- aplikacije
- Uporabi
- primerno
- Arhitektura
- OBMOČJE
- območja
- okoli
- Sredstva
- Sodelavec
- povezan
- Revizija
- AWS
- AWS lepilo
- Oblikovanje jezera AWS
- AWS re: Izum
- ozadje
- temeljijo
- postanejo
- Boljše
- Poleg
- Big
- Big Podatki
- izgradnjo
- builder
- gradbeniki
- Building
- zgrajena
- poslovni
- business-to-business
- se imenuje
- kliče
- Lahko dobiš
- Kanada
- Zmogljivosti
- primeru
- primeri
- Katalog
- CCPA
- izzivi
- izziv
- Spremembe
- preveriti
- Kitajska
- Izberite
- Cloud
- Grozd
- Zbiranje
- zbirka
- komentarji
- Podjetja
- konkurenčno
- dokončanje
- kompleksna
- celovito
- Connect
- naprej
- nadzor
- Nadzor
- stroški
- bi
- pokritost
- gosenicah
- ustvarjajo
- po meri
- stranka
- Stranke, ki so
- datum
- dostop do podatkov
- podatkovni inženir
- Izmenjava podatkov
- Data jezero
- Upravljanje podatkov
- Podatkovna platforma
- zasebnost podatkov
- kakovosti podatkov
- podatkovni znanstvenik
- izmenjavo podatkov
- podatkovna strategija
- podatkovno skladišče
- skladišča podatkov
- Podatkov usmerjenih
- Baze podatkov
- baze podatkov
- nabor podatkov
- desetletje
- Odločanje
- globlje
- poda
- dostavi
- Delta
- uvajanja
- opisano
- podrobno
- Podrobnosti
- Razvijalci
- Razvoj
- drugačen
- neposredno
- odkriti
- vsak
- lažje
- Učinkovito
- učinkovito
- pooblastitvi
- omogoča
- omogočanje
- spodbujanje
- konec koncev
- inženir
- Inženirji
- okrepljeno
- Izboljša
- zagotovitev
- zagotoviti
- okolje
- Eter (ETH)
- EU
- Tudi
- Event
- dogodki
- Tudi vsak
- Izmenjava
- razburjen
- obstoječih
- širi
- izkušnje
- raziskuje
- Raziskovati
- izrazi
- ekstrakt
- družina
- hitreje
- Feature
- Lastnosti
- povratne informacije
- Nekaj
- Polje
- datoteke
- Najdi
- konec
- prva
- Osredotočite
- po
- Oblikovanje
- Naprej
- Fundacija
- okviri
- iz
- v celoti
- funkcionalnosti
- nadalje
- GDPR
- ustvarjajo
- dobili
- pridobivanje
- globus
- dogaja
- upravljanje
- odobri
- več
- skupina
- Pridelovanje
- Ravnanje
- srečna
- Trdi
- Zdravje
- sluha
- pomoč
- pomoč
- Pomaga
- zgodovina
- Panj
- upam,
- URE
- Kako
- Vendar
- HTML
- HTTPS
- IAM
- identiteta
- Izvajanje
- Pomembno
- Izboljšave
- izboljšuje
- izboljšanju
- in
- V drugi
- vključuje
- Vključno
- Poveča
- vedno
- info
- Podatki
- vpogled
- vpogledi
- integrirana
- integracija
- integracije
- zainteresirani
- Uvedeno
- Predstavljamo
- povabi
- IT
- Delovna mesta
- Potovanje
- Imejte
- Ključne
- Jezero
- Zadnji
- začela
- Vodja
- UČITE
- učenje
- Stopnja
- Licenca
- Licencirano
- licenciranje
- strele
- Hitrost strele
- obremenitev
- Poglej
- stroj
- strojno učenje
- je
- Glavne
- IZDELA
- Izdelava
- upravljanje
- upravlja
- upravljanje
- upravitelj
- več
- metapodatki
- Metoda
- Metode
- ML
- način
- Model
- modeli
- sodobna
- Moduli
- monitor
- več
- Najbolj
- več
- Imena
- materni
- Nimate
- potrebe
- Novo
- nova funkcija
- zvezki
- Obvestila
- november
- novo
- obveznice
- ponudba
- Ponudbe
- Na vkrcanje
- ONE
- open source
- operacije
- Priložnost
- Organizacija
- organizacije
- Ostalo
- lastne
- Lastniki
- del
- partnerji
- PBS
- Dovoljenje
- Dovoljenja
- petabajt
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Predvajaj
- prosim
- politike
- Popular
- Portfelj
- mogoče
- Prispevek
- Pripravimo
- predstavljeni
- predogled
- v prvi vrsti
- zasebnost
- Procesi
- obravnavati
- Izdelek
- produktni vodja
- Napredek
- zagotavljajo
- če
- ponudniki
- zagotavlja
- zagotavljanje
- objavljeno
- Namen
- kakovost
- RAM
- RE
- priznajo
- Priporočamo
- zmanjšuje
- zmanjšanje
- regije
- predpisi
- regulatorni
- sprostitev
- Odstranjeno
- obvezna
- Zahteve
- vir
- viri
- REST
- pregleda
- Tveganje
- robusten
- vloga
- vloge
- Run
- Rusija
- sagemaker
- Enako
- Lestvica
- načrtovano
- Znanost
- Znanost in tehnologija
- Znanstvenik
- Znanstveniki
- brez težav
- drugi
- zavarovanje
- zavarovanje
- višji
- Storitev
- Storitve
- nastavite
- Delite s prijatelji, znanci, družino in partnerji :-)
- deli
- Delnice
- delitev
- Enostavno
- So
- Rešitev
- rešitve
- Reševanje
- nekaj
- vir
- Viri
- Spark
- specialist
- specifična
- hitrost
- porabljen
- interesne skupine
- zvezdnimi izbruhi
- začel
- Začetek
- Koraki
- shranjevanje
- shranjeni
- Strategija
- tok
- studio
- predloži
- naročiti
- naročniki
- taka
- Povzamemo
- POVZETEK
- podpora
- Podpira
- sistemi
- pogovori
- Cilji
- skupina
- Skupine
- tehnični
- Tehnologija
- O
- Vir
- njihove
- stvar
- tretjih oseb
- skozi
- vsej
- čas
- do
- toronto
- na dotik
- sledenje
- usposabljanje
- Transform
- preoblikovanje
- Trends
- OBRAT
- ui
- osnovni
- razumeli
- poenoteno
- edinstven
- odklepanje
- Nadgradnja
- uporaba
- primeru uporabe
- uporabnik
- Uporabniška izkušnja
- Uporabniki
- vrednost
- različica
- Poglej
- ogledov
- Skladišče
- načini
- Kaj
- ali
- WHO
- v
- delo
- delal
- Delavnica
- Delavnice
- pisanje
- leto
- Vaša rutina za
- youtube
- zefirnet