Az adatkezelés olyan irányelvek, folyamatok és rendszerek gyűjteménye, amelyeket a szervezetek használnak adataik minőségének és megfelelő kezelésének biztosítására azok teljes életciklusa során, üzleti érték létrehozása céljából. Az adatkezelés egyre inkább az ügyfelek szemébe kerül, mivel az adatokat az egyik legfontosabb eszközüknek tekintik. A hatékony adatkezelés jobb döntéshozatalt tesz lehetővé azáltal, hogy javítja az adatminőséget, csökkenti az adatkezelési költségeket, és biztosítja az érintettek biztonságos hozzáférését az adatokhoz. Ezen túlmenően, az adatkezelésnek meg kell felelnie az egyre összetettebb szabályozási környezetnek, az adatvédelemmel (például GDPR és CCPA) és az adatok tartózkodási helyére vonatkozó előírásokkal (például az EU-ban, Oroszországban és Kínában).
Az AWS-ügyfelek számára a hatékony adatkezelés javítja a döntéshozatalt, növeli az üzleti agilitást, versenyelőnyt biztosít, és csökkenti a szabályozási kötelezettségek be nem tartása miatti bírság kockázatát. Megértjük azt az egyedülálló lehetőséget, hogy ügyfeleinknek átfogó, teljes körű adatkezelési megoldást kínáljunk, amely zökkenőmentesen integrálódik szolgáltatási portfóliónkba, és AWS-tó formáció és a AWS ragasztóadat-katalógus kulcsfontosságúak ezeknek a kihívásoknak a megoldásában.
Ebben a bejegyzésben izgatottan szeretnénk összefoglalni az AWS Glue Data Catalog, AWS Glue crawler és Lake Formation csapatai által 2022-ben biztosított funkciókat. Összegyűjtöttünk néhány kulcsfontosságú beszélgetést és megoldást az adatkezelésről, az adathálóról és a modern adatokról. Az AWS re:Invent 2022-ben közzétett és bemutatott architektúra, valamint néhány, az ügyfelek és az AWS-partnerek által épített Data Lake-megoldás a könnyű hivatkozás érdekében. Akár adatplatform-készítő, adatmérnök, adattudós vagy bármely technológiai vezető, aki érdeklődik a Data Lake megoldások iránt, ez a bejegyzés neked szól.
Ha többet szeretne megtudni arról, hogy az ügyfelek hogyan biztosítják és osztják meg az adatokat a Lake Formation szolgáltatással, javasoljuk, hogy elmélyüljön a GoDaddy decentralizált adatháló, Novo Nordisk modern adatarchitektúra, és a JPMorgan fejlesztései azokhoz Federated Data Lake, egy szabályozott adatháló megvalósítás a Lake Formation használatával. Azt is megtudhatja, hogy az AWS Partners hogyan integrálta a Lake Formationt, hogy segítse az ügyfeleket egyedi adattavak létrehozásában a Starburst's adatháló megoldás, Informatika automatizált adatmegosztási megoldás, Ahanáé Presto integráció a Lake Formation-el, Növekvő szokás adatkezelési rendszer, hogyan használták a PBS-t gépi tanulás az adattavaikonés hogyan biztosítja a hc1 személyre szabott egészségügyi betekintést az ügyfelek számára.
Áttekintheti, hogyan használják a Lake Formationt az ügyfelek az építkezéshez modern adatarchitektúrák a következő re:Invent 2022 beszélgetésekben:
A Lake Formation csapata meghallgatta az ügyfelek visszajelzéseit, és fejlesztéseket hajtott végre a több fiókra kiterjedő adatkezelés, az adatlakok forrásának bővítése, az üzleti adatkatalógus egységes adatkezelésének lehetővé tétele, a biztonságos vállalkozások közötti adatmegosztás, valamint a finomszemcsés hozzáférés-vezérlők lefedettségének kiterjesztése ide Amazon RedShift. A bejegyzés további részében örömmel osztjuk meg a 2022-ben elért előrehaladást.
A több fiókra kiterjedő kormányzás javítása
A Lake Formation biztosítja az alapot az ügyfelek számára, hogy megosszák adataikat a szervezetükön belüli fiókok között. Megoszthatja az AWS Glue Data Catalog erőforrásait AWS Identity and Access Management (IAM) megbízók egy fiókon belül, valamint más AWS-fiókok két módszerrel. Az első az úgynevezett named-resource metódus, ahol a felhasználók kiválaszthatják az adatbázisok és táblák nevét, és kiválaszthatják a megosztandó engedélyek típusát. A második módszer LF-címkéket használ, ahol a felhasználók LF-címkéket hozhatnak létre és társíthatnak adatbázisokhoz és táblákhoz, valamint engedélyt adhatnak az IAM-tagok számára LF-Tag házirendek és kifejezések segítségével.
2022 novemberében a Lake Formation bemutatta a 3. verzióját fiókok közötti megosztási funkció. Ezzel az új verzióval a Lake Formation felhasználói megoszthatják a katalógusforrásokat az LF-Tags segítségével a webhelyen AWS szervezetek szint. Az adatok LF-címkékkel történő megosztása segít az engedélyek méretezésében, és csökkenti a Data Lake-építők adminisztrátori munkáját. A fiókok közötti megosztás 3-as verziója lehetővé teszi az erőforrások megosztását más fiókokban lévő IAM-felelősökkel, így az adattulajdonosok szabályozhatják, hogy ki férhet hozzá adataikhoz más fiókokban. Végül eltávolítottuk az adatkatalógus-erőforrás-irányelvek írásának és karbantartásának többletköltségét, bevezetésével AWS Resource Access Manager (AWS RAM) meghívók LF-Tags-alapú házirendekkel a több fiókra kiterjedő megosztás 3-as verziójában. Javasoljuk, hogy tanulmányozza tovább fiókok közötti megosztás a Lake Formationben.
A Lake Formation engedélyeinek kiterjesztése új adatokra
A re:Invent 2022-ig a Lake Formation az adatkatalógus-erőforrások IAM-felelőseinek engedélykezelését biztosította, és a mögöttes adatok elsősorban Amazon egyszerű tárolási szolgáltatás (Amazon S3). A re:Invent 2022-ben bemutattuk Lake Formation engedélykezelés az Amazon Redshift adatmegosztásokhoz előnézeti módban. Az Amazon Redshift egy teljesen felügyelt, petabájtos adattárház szolgáltatás az AWS Cloudban. A adatmegosztási funkció lehetővé teszi az adattulajdonosok számára, hogy adatbázisokat, táblákat és nézeteket csoportosítsanak egy Amazon Redshift-fürtben, és megosszák azokat más Amazon Redshift-fürtökkel az AWS-fiókokon belül vagy azok között. Az adatmegosztás csökkenti annak szükségességét, hogy ugyanazon adatok több másolatát kell tárolni különböző adattárházakban, hogy felgyorsítsák az üzleti döntéshozatalt a szervezeten belül. A Lake Formation tovább javítja az adatok megosztását az Amazon Redshift adatmegosztásokon belül azáltal, hogy finomszemcsés hozzáférés-vezérlést biztosít a táblákhoz és nézetekhez.
A funkcióval kapcsolatos további részletekért lásd: Az AWS Lake Formation által kezelt Redshift adatmegosztások (előzetes verzió) és a Hogyan kezelheti a Redshift adatmegosztást a Lake Formation.
Amazon EMR egy felügyelt fürtplatform nagy adatméretű alkalmazások futtatására Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi és Presto használatával. Az Amazon EMR segítségével kötegelt és adatfolyam-feldolgozási analitikai feladatokat futtathat az S3 adattókon. Az Amazon EMR 6.7.0-s kiadásától kezdve bemutattuk Lake Formation engedélyek kezelése futásidejű IAM szerepkörön az EMR Steps API-val használva. Ez a funkció lehetővé teszi az Apache Spark és Apache Hive alkalmazások beküldését egy EMR-fürthöz az EMR Steps API-n keresztül, amely tábla- és oszlopszintű engedélyeket kényszerít ki a Lake Formation használatával az alkalmazást benyújtó IAM-szerepkörhöz. Ez a Lake Formation integráció az Amazon EMR-rel lehetővé teszi az EMR-fürt megosztását egy szervezet több felhasználója között, akik különböző jogosultságokkal rendelkeznek az alkalmazások futásidejű IAM szerepkörön keresztül történő elkülönítésével. Javasoljuk, hogy ellenőrizze ezt a funkciót a Lake Formation műhelyben Integráció az Amazon EMR-rel a Runtime Roles használatával. Egy használati eset feltárásához lásd: Futóidejű szerepkörök bemutatása az Amazon EMR lépéseihez: Használjon IAM-szerepköröket és AWS Lake Formation-t az Amazon EMR-rel való hozzáférés-vezérléshez.
Amazon SageMaker Studio egy teljesen integrált fejlesztői környezet (IDE) a gépi tanuláshoz (ML), amely lehetővé teszi az adattudósok és fejlesztők számára, hogy adatokat készítsenek a modellek építéséhez, betanításához, hangolásához és üzembe helyezéséhez. A Studio natív integrációt kínál az Amazon EMR-rel, így az adattudósok és adatmérnökök interaktív módon, petabájtos méretű adatokat készíthetnek elő olyan nyílt forráskódú keretrendszerek segítségével, mint az Apache Spark, a Presto és a Hive a Studio notebookok használatával. kiadásával Lake Formation engedélyek kezelése futásidejű IAM szerepkörön, a Studio mostantól támogatja a tábla- és oszlopszintű hozzáférést a Lake Formation segítségével. Amikor a felhasználók EMR-fürtökhöz csatlakoznak Studio notebookokról, kiválaszthatják az IAM-szerepet (az úgynevezett futásidejű IAM szerepkör), amellyel kapcsolatba szeretnének lépni. Ha az adathozzáférést a Lake Formation kezeli, a felhasználók tábla- és oszlopszintű engedélyeket kényszeríthetnek a futásidejű szerepkörhöz csatolt házirendek segítségével. További részletekért lásd: Alkalmazzon finomszemcsés adathozzáférési vezérlőket az Amazon SageMaker Studio AWS Lake Formation és Amazon EMR segítségével.
Változatos adatok gyűjtése és katalógusa
A robusztus adatirányítási modell a szervezet számos adatforrásából származó adatokat és módszereket tartalmaz a különféle adatvagyon felderítésére és katalogizálására. Az AWS Glue bejárók lehetővé teszik az adatok felfedezését olyan forrásokból, mint az Amazon S3, az Amazon Redshift és a NoSQL adatbázisok, és feltöltik az AWS ragasztóadat-katalógust.
2022-ben elindítottuk AWS Glue bejáró támogatás a Snowflake-hez és a AWS Glue bejáró támogatás a Delta Lake asztalokhoz. Ezek az integrációk lehetővé teszik az AWS Glue bejárói számára, hogy ezeken a népszerű adatforrásokon alapuló adatkatalógus-táblázatokat hozzanak létre és frissítsenek. Ez még egyszerűbbé teszi a kivonatolási, átalakítási és betöltési (ETL) feladatok létrehozását az AWS Glue segítségével az adatkatalógus-táblázatok alapján, mint forrásokat és célokat.
2022-ben az AWS Glue crawlers felhasználói felületét újratervezték, hogy jobb felhasználói élményt nyújtsanak. A felülvizsgálat részeként megvalósított egyik fő fejlesztés az AWS Glue bejáró történetébe való jobb betekintés. A bejáróelőzmények felhasználói felülete egyszerű áttekintést nyújt a bejáró futtatásairól, ütemezéseiről, adatforrásairól és címkéiről. A bejáró előzmények minden bejáráshoz összefoglalják az adatbázisséma vagy az Amazon S3 partíció változásait. A feltérképezési előzmények részletes információkat is tartalmaznak a DPU-órákról, és csökkentik a bejáró műveleteinek és költségeinek elemzésére és hibakeresésére fordított időt. A bejárók felhasználói felületéhez hozzáadott új funkciók felfedezéséhez tekintse meg a következőt: Az AWS Glue bejárók beállítása és figyelése a továbbfejlesztett AWS Glue UI és a bejáróelőzmények segítségével.
2022-ben az Amazon S3 eseményértesítéseken alapuló robotok támogatását is kiterjesztettük a katalógustáblázatok támogatására. Ezzel a funkcióval a növekményes feltérképezés átrakható az adatfolyamokból az ütemezett AWS Glue bejáróba, így a bejárások növekményes S3 eseményekké csökkenthetők. További információkért lásd: A meglévő ragasztókatalógus-táblázatokkal növekményes feltérképezéseket készíthet az adattókból.
További módok az adatok megosztására a Data Lake-en kívül
A re:Invent 2022 során bejelentettük egy előzetest AWS adatcsere az AWS Lake Formation számára, egy új funkció, amely lehetővé teszi az adatelőfizetők számára, hogy megtalálják és előfizessenek harmadik féltől származó adatkészleteket, amelyeket közvetlenül a Lake Formationen keresztül kezelnek. Mostanáig, AWS adatcsere Az előfizetők hozzáférhettek a harmadik féltől származó adatkészletekhez, ha exportálják a szolgáltatók fájljait saját S3-tárolóikba, és hívják a szolgáltatók API-jait Amazon API átjáró, vagy lekérdezi a gyártók Amazon Redshift adatmegosztásait az Amazon Redshift fürtjükből. Az új Lake Formation integrációval az adatszolgáltatók Lake Formation címkék segítségével válogatják az AWS Data Exchange adatkészleteket. Az adat-előfizetők lekérdezhetik és felfedezhetik az ezekkel a címkékkel társított adatbázisokat és táblázatokat, akárcsak bármely más AWS Glue Data Catalog erőforrást. A szervezetek erőforrás-alapú Lake Formation engedélyeket alkalmazhatnak a licencelt adatkészletek megosztására ugyanazon a fiókon belül vagy fiókok között a AWS licenckezelő. Az AWS Data Exchange for Lake Formation leegyszerűsíti az adatlicencelési és -megosztási műveleteket azáltal, hogy felgyorsítja az adatok beépítését, csökkenti a végfelhasználók számára a harmadik féltől származó adatokhoz való hozzáféréshez szükséges ETL mennyiségét, valamint centralizálja a harmadik féltől származó adatok irányítási és hozzáférés-vezérlését.
A re:Invent 2022 rendezvényen mi is bejelentettük Amazon DataZone, egy új adatkezelési szolgáltatás, amely gyorsabbá és egyszerűbbé teszi az AWS-ben, a helyszíni és harmadik féltől származó forrásokban tárolt adatok katalogizálását, felfedezését, megosztását és kezelését. Az Amazon DataZone egy üzleti adatkatalógus-szolgáltatás, amely kiegészíti az AWS ragasztóadat-katalógus műszaki metaadatait. Az Amazon DataZone integrálva van a Lake Formation engedélykezelésével, így hatékonyan kezelheti és szabályozhatja az adataihoz való hozzáférést, valamint ellenőrizheti, hogy ki milyen adatokhoz fér hozzá és milyen célból. Az Amazon DataZone kiadó-előfizető modelljével az adatvagyon megosztható és elérhető a régiók között. A szolgáltatással és képességeivel kapcsolatos további részletekért tekintse meg a Amazon DataZone GYIK és a re:Invent elindítása.
Következtetés
Az adatok minden területet és üzletet átalakítanak. Mivel azonban az adatok gyorsabban növekszenek, mint amennyit a legtöbb vállalat nyomon követni tud, az adatok gyűjtése, biztosítása és értékteremtés kihívást jelent. A modern adatstratégia segíthet jobb üzleti eredmények elérésében az adatokkal. Az AWS a szolgáltatások legteljesebb készletét nyújtja a végpontok közötti adatúthoz, hogy segítsen az adatokból értéket felszabadítani, és betekintést nyerni.
Az AWS-nél az ügyfelek igényeihez képest visszafelé dolgozunk. A Lake Formation csapata keményen dolgozott az ebben a bejegyzésben leírt funkciók megvalósításán, és kérjük, hogy nézze meg őket. Továbbra is a feltalálásra összpontosítunk, és reméljük, hogy kulcsszerepet játszhatunk abban, hogy a szervezetek új adatkezelési modelleket építsenek ki, amelyek segítségével villámgyorsan több üzleti érték származhat.
Kezdheti a Lake Formation felfedezésével gyakorlati műhely modulok és Kezdő lépések oktatóanyagok. Szeretettel várjuk Önt, ügyfeleinket a Data Lake és az adatkezelés használatának eseteivel kapcsolatban. Kérjük, vegye fel a kapcsolatot AWS-fiókjával, és ossza meg észrevételeit.
A szerzőkről
Jason Berkowitz az AWS Lake Formation vezető termékmenedzsere. Gépi tanulással és Data Lake architektúrákkal kapcsolatos háttérrel rendelkezik. Segít az ügyfeleknek adatvezéreltté válni.
Aarthi Srinivasan az AWS Lake Formation vezető Big Data építésze. Szereti az AWS-ügyfelek és -partnerek számára Data Lake megoldásokat építeni. Amikor nem a billentyűzeten dolgozik, felfedezi a legújabb tudományos és technológiai trendeket, és családjával tölt időt.
Leonardo Gomez az AWS vezető analitikai megoldásokra szakosodott építésze. A kanadai torontói székhelyű több mint egy évtizedes adatkezelési tapasztalattal rendelkezik, és világszerte segít ügyfeleinek üzleti és műszaki igényeik kielégítésében.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- képesség
- Képes
- Rólunk
- gyorsul
- gyorsuló
- hozzáférés
- Az adatokhoz való hozzáférés
- igénybe vett
- Hozzáférés
- Fiók
- Fiókok
- át
- hozzáadott
- mellett
- További
- cím
- admin
- Előny
- lehetővé teszi, hogy
- amazon
- Amazon EMR
- Amazon SageMaker
- összeg
- analitika
- elemzése
- és a
- bejelentés
- Apache
- Apache Spark
- api
- API-k
- Alkalmazás
- alkalmazások
- alkalmaz
- megfelelő
- építészet
- TERÜLET
- területek
- körül
- Eszközök
- Társult
- társult
- könyvvizsgálat
- AWS
- AWS ragasztó
- AWS-tó formáció
- AWS re:Invent
- háttér
- alapján
- válik
- Jobb
- Túl
- Nagy
- Big adatok
- épít
- építész
- építők
- Épület
- épült
- üzleti
- Bizniszről bizniszre
- hívott
- hívás
- Kaphat
- Kanada
- képességek
- eset
- esetek
- katalógus
- CCPA
- kihívások
- kihívást
- Változások
- ellenőrizze
- Kína
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- felhő
- Fürt
- Gyűjtő
- gyűjtemény
- Hozzászólások
- Companies
- versenyképes
- teljes
- bonyolult
- átfogó
- Csatlakozás
- tovább
- ellenőrzés
- ellenőrzések
- kiadások
- tudott
- lefedettség
- lánctalpas
- teremt
- szokás
- vevő
- Ügyfelek
- dátum
- adat hozzáférés
- adatmérnök
- Adatcsere
- adattó
- adatkezelés
- Adatplatform
- Adatvédelem
- adatminőség
- adattudós
- adatmegosztás
- adatstratégia
- adattárház
- adattárházak
- adatalapú
- adatbázis
- adatbázisok
- adatkészletek
- évtized
- Döntéshozatal
- mélyebb
- szállít
- szállított
- Delta
- bevezetéséhez
- leírt
- részletes
- részletek
- fejlesztők
- Fejlesztés
- különböző
- közvetlenül
- felfedez
- minden
- könnyebb
- Hatékony
- hatékonyan
- képessé
- lehetővé teszi
- lehetővé téve
- ösztönzése
- végtől végig
- mérnök
- Mérnökök
- fokozott
- Javítja
- biztosítására
- biztosítása
- Környezet
- Eter (ETH)
- EU
- Még
- esemény
- események
- Minden
- csere
- izgatott
- létező
- bővülő
- tapasztalat
- feltárása
- Feltárása
- kifejezések
- kivonat
- család
- gyorsabb
- Funkció
- Jellemzők
- Visszacsatolás
- kevés
- mező
- Fájlok
- Találjon
- végek
- vezetéknév
- Összpontosít
- következő
- képződés
- Előre
- Alapítvány
- keretek
- ból ből
- teljesen
- funkciós
- további
- GDPR
- generáló
- kap
- szerzés
- földgolyó
- megy
- kormányzás
- biztosít
- nagyobb
- Csoport
- Növekvő
- Kezelés
- boldog
- Kemény
- Egészség
- hallás
- segít
- segít
- segít
- történelem
- Kaptár
- remény
- NYITVATARTÁS
- Hogyan
- azonban
- HTML
- HTTPS
- IAM
- Identitás
- végrehajtás
- fontos
- fejlesztések
- javítja
- javuló
- in
- Más
- magában foglalja a
- Beleértve
- Növeli
- egyre inkább
- info
- információ
- Insight
- meglátások
- integrált
- integráció
- integrációk
- érdekelt
- Bevezetett
- bevezetéséről
- meghívni
- IT
- Állások
- utazás
- Tart
- Kulcs
- tó
- legutolsó
- indított
- vezető
- TANUL
- tanulás
- szint
- Engedély
- Engedélyezett
- Engedélyezés
- villám
- Villám sebesség
- kiszámításának
- néz
- gép
- gépi tanulás
- készült
- Fő
- KÉSZÍT
- Gyártás
- kezelése
- sikerült
- vezetés
- menedzser
- sok
- Metaadatok
- módszer
- mód
- ML
- Mód
- modell
- modellek
- modern
- Modulok
- monitor
- több
- a legtöbb
- többszörös
- nevek
- bennszülött
- Szükség
- igények
- Új
- új funkció
- laptopok
- értesítések
- november
- Novo
- kötvények
- ajánlat
- Ajánlatok
- Beszállás
- ONE
- nyílt forráskódú
- Művelet
- Alkalom
- szervezet
- szervezetek
- Más
- saját
- tulajdonosok
- rész
- partnerek
- PBS
- engedély
- engedélyek
- petabájt
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- játszani
- kérem
- Politikák
- Népszerű
- portfolió
- lehetséges
- állás
- Készít
- bemutatott
- Preview
- elsősorban
- magánélet
- Folyamatok
- feldolgozás
- Termékek
- termék menedzser
- Haladás
- ad
- feltéve,
- szolgáltatók
- biztosít
- amely
- közzétett
- cél
- világítás
- RAM
- RE
- elismerik
- ajánl
- csökkenti
- csökkentő
- régiók
- előírások
- szabályozók
- engedje
- eltávolított
- kötelező
- követelmények
- forrás
- Tudástár
- REST
- Kritika
- Kockázat
- erős
- Szerep
- szerepek
- futás
- Oroszország
- sagemaker
- azonos
- Skála
- tervezett
- Tudomány
- Tudomány és technológia
- Tudós
- tudósok
- zökkenőmentesen
- Második
- biztonság
- biztosítása
- idősebb
- szolgáltatás
- Szolgáltatások
- készlet
- Megosztás
- megosztott
- Megoszt
- megosztás
- Egyszerű
- So
- megoldások
- Megoldások
- Megoldása
- néhány
- forrás
- Források
- Szikra
- szakember
- különleges
- sebesség
- költött
- érdekeltek
- csillagkeletkezési
- kezdődött
- Kezdve
- Lépései
- tárolás
- memorizált
- Stratégia
- folyam
- stúdió
- beküldése
- Iratkozz fel
- előfizetőknek
- ilyen
- összegez
- ÖSSZEFOGLALÓ
- támogatás
- Támogatja
- Systems
- Talks
- célok
- csapat
- csapat
- Műszaki
- Technológia
- A
- The Source
- azok
- dolog
- harmadik fél
- Keresztül
- egész
- idő
- nak nek
- toronto
- érintse
- vágány
- Képzések
- Átalakítás
- transzformáló
- Trends
- FORDULAT
- ui
- mögöttes
- megért
- egységes
- egyedi
- kinyit
- Frissítések
- használ
- használati eset
- használó
- User Experience
- Felhasználók
- érték
- változat
- Megnézem
- nézetek
- Raktár
- módon
- Mit
- vajon
- WHO
- belül
- Munka
- dolgozott
- műhely
- Műhelyek
- írás
- év
- A te
- youtube
- zephyrnet