A Amazon EMR 6.15, elindultunk AWS-tó formáció alapú finomszemcsés hozzáférés-vezérlés (FGAC) nyílt táblázatformátumokon (OTF), beleértve az Apache Hudit, az Apache Iceberget és a Delta lake-et. Ez lehetővé teszi a biztonság és az irányítás egyszerűsítését tranzakciós adattavak hozzáférés-vezérlés biztosításával tábla-, oszlop- és sorszintű engedélyekhez az Apache Spark-feladatokhoz. Sok nagyvállalati vállalat arra törekszik, hogy a tranzakciós adatkészletét betekintésre és a döntéshozatal javítására használja. A Lake Formation for FGAC-hez integrált Amazon EMR használatával tóház-architektúrát építhet. A szolgáltatások ezen kombinációja lehetővé teszi, hogy adatelemzést végezzen a tranzakciós adattóban, miközben biztosítja a biztonságos és ellenőrzött hozzáférést.
Az Amazon EMR rekordszerver összetevője támogatja a táblázat-, oszlop-, sor-, cella- és beágyazott attribútum szintű adatszűrési funkciókat. Kibővíti a Hive, Apache Hudi, Apache Iceberg és Delta lake formátumok támogatását mind az olvasási (beleértve az időutazást és a növekményes lekérdezést), mind az írási műveleteket (a DML utasításokon, például az INSERT-en). Ezenkívül a 6.15-ös verzióval az Amazon EMR bevezeti a hozzáférés-vezérlési védelmet az alkalmazások webes felületein, például a fürtön belüli Spark History Server, a Yarn Timeline Server és a Yarn Resource Manager felhasználói felületén.
Ebben a bejegyzésben bemutatjuk az FGAC bevezetését Apache Hudi táblázatok az Amazon EMR használatával, integrálva a Lake Formationnal.
Tranzakciós adatok tó használati esete
Az Amazon EMR ügyfelei gyakran használják az Open Table Formats-t az ACID-tranzakciók és az időutazási igényeik támogatására egy adattóban. A korábbi verziók megőrzésével a Data Lake időutazása olyan előnyöket biztosít, mint az auditálás és megfelelőség, az adatok helyreállítása és visszaállítása, reprodukálható elemzés és adatfeltárás különböző időpontokban.
Egy másik népszerű tranzakciós adattó használati eset a növekményes lekérdezés. A növekményes lekérdezés olyan lekérdezési stratégiára utal, amely az utolsó lekérdezés óta csak egy adattóban lévő új vagy frissített adatok feldolgozására és elemzésére összpontosít. A növekményes lekérdezések mögött meghúzódó kulcsötlet az, hogy metaadatokat vagy változáskövetési mechanizmusokat használnak az utolsó lekérdezés óta új vagy módosított adatok azonosítására. Ezen változások azonosításával a lekérdezőmotor optimalizálhatja a lekérdezést úgy, hogy csak a releváns adatokat dolgozza fel, jelentősen csökkentve a feldolgozási időt és az erőforrásigényt.
Megoldás áttekintése
Ebben a bejegyzésben bemutatjuk, hogyan lehet megvalósítani az FGAC-ot Apache Hudi táblákon az Amazon EMR használatával Amazon rugalmas számítási felhő (Amazon EC2) integrálva a Lake Formation rendszerrel. Az Apache Hudi egy nyílt forráskódú tranzakciós adattó keretrendszer, amely nagyban leegyszerűsíti a növekményes adatfeldolgozást és az adatfolyamok fejlesztését. Ez az új FGAC funkció az összes OTF-et támogatja. A Hudival való demonstráción túlmenően más OTF-táblázatokat is követni fogunk más blogokkal. Használjuk laptopok in Amazon SageMaker Studio Hudi adatok olvasásához és írásához különböző felhasználói hozzáférési engedélyekkel egy EMR-fürtön keresztül. Ez a valós adathozzáférési forgatókönyveket tükrözi – például ha egy mérnöki felhasználónak teljes adathozzáférésre van szüksége egy adatplatform hibaelhárításához, míg az adatelemzőknek előfordulhat, hogy az adatoknak csak egy részhalmazához kell hozzáférniük, amely nem tartalmaz személyazonosításra alkalmas információkat (PII). ). Integráció a Lake Formation segítségével a Amazon EMR futásidejű szerepkör továbbá lehetővé teszi az adatbiztonsági helyzet javítását, és leegyszerűsíti az adatkezelés kezelését az Amazon EMR-munkaterheléseihez. Ez a megoldás biztonságos és ellenőrzött környezetet biztosít az adatokhoz való hozzáféréshez, kielégítve a különböző felhasználók és szerepkörök különböző igényeit és biztonsági követelményeit a szervezetben.
A következő ábra a megoldás architektúráját mutatja be.
Adatfeldolgozási folyamatot végzünk egy Hudi-adatkészlet feltöltésére (frissítésére és beillesztésére) egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödörben, és tartsa fenn vagy frissítse a táblázat sémáját a AWS ragasztó Adatkatalógus. Nulla adatmozgással lekérdezhetjük a Lake Formation által irányított Hudi táblát különböző AWS szolgáltatásokon keresztül, mint pl. Amazon Athéné, Amazon EMR és Amazon SageMaker.
Amikor a felhasználók elküldenek egy Spark-feladatot bármely EMR-fürtvégponton (EMR Steps, Livy, EMR Studio és SageMaker) keresztül, a Lake Formation érvényesíti jogosultságaikat, és utasítja az EMR-fürtöt, hogy szűrje ki az érzékeny adatokat, például a személyazonosításra alkalmas adatokat.
Ennek a megoldásnak három különböző típusú felhasználója van, akik különböző szintű jogosultságokkal rendelkeznek a Hudi adatok eléréséhez:
- hudi-db-creator-role – Ezt a Data Lake adminisztrátora használja, aki jogosultsággal rendelkezik DDL-műveletek végrehajtására, például adatbázis-objektumok létrehozására, módosítására és törlésére. Adatszűrési szabályokat határozhatnak meg a Lake Formation alkalmazásban a sor- és oszlopszintű adathozzáférés szabályozásához. Ezek az FGAC szabályok biztosítják, hogy a Data Lake biztonságos legyen, és megfeleljen a szükséges adatvédelmi előírásoknak.
- hudi-asztal-pii-szerep – Ezt a mérnöki felhasználók használják. A mérnöki felhasználók képesek időutazást és növekményes lekérdezéseket végrehajtani mind a Copy-on-Write (CoW), mind a Merge-on-Read (MoR) segítségével. Ezenkívül jogosultak hozzáférni a személyazonosításra alkalmas adatokhoz bármilyen időbélyeg alapján.
- hudi-tábla-nem-pii-szerep – Ezt használják az adatelemzők. Az adatelemzők adathozzáférési jogait a Data Lake adminisztrátorai által ellenőrzött FGAC engedélyezett szabályok szabályozzák. Nem láthatók a személyazonosításra alkalmas adatokat (például neveket és címeket) tartalmazó oszlopok. Ezenkívül nem férhetnek hozzá olyan adatsorokhoz, amelyek bizonyos feltételeket nem teljesítenek. Például a felhasználók csak azokhoz az adatsorokhoz férhetnek hozzá, amelyek az országukhoz tartoznak.
Előfeltételek
A bejegyzésben használt három jegyzetfüzetet letöltheti a GitHub repo.
A megoldás üzembe helyezése előtt győződjön meg arról, hogy rendelkezik a következőkkel:
Az engedélyek beállításához hajtsa végre a következő lépéseket:
- Jelentkezzen be AWS-fiókjába adminisztrátori IAM-felhasználójával.
Győződjön meg róla, hogy aus-east-1
Vidék.
- Hozzon létre egy S3 vödröt a
us-east-1
régió (pl.emr-fgac-hudi-us-east-1-<ACCOUNT ID>
).
Ezután engedélyezzük a Lake Formation by az alapértelmezett engedélymodell módosítása.
- Jelentkezzen be a Lake Formation konzolba rendszergazdaként.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatkatalógus beállításai alatt Adminisztráció a navigációs ablaktáblában.
- Alatt Alapértelmezett engedélyek az újonnan létrehozott adatbázisokhoz és táblákhoz, törölje a kijelölést Az új adatbázisokhoz csak IAM hozzáférés-vezérlést használjon és a Csak IAM hozzáférés-vezérlést használjon az új adatbázisok új tábláihoz.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás.
Alternatív megoldásként vissza kell vonnia az IAMAllowedPrincipals alkalmazást azokon az erőforrásokon (adatbázisokon és táblákon), amelyeket akkor hoztak létre, ha a Lake Formationt az alapértelmezett beállítással indította el.
Végül létrehozunk egy kulcspárt az Amazon EMR számára.
- Az Amazon EC2 konzolon válassza a lehetőséget Kulcspárok a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre kulcspárt.
- A Név, írjon be egy nevet (például
emr-fgac-hudi-keypair
). - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre kulcspárt.
A generált kulcspár (ehhez a bejegyzéshez, emr-fgac-hudi-keypair.pem
) menti a helyi számítógépére.
Ezután létrehozunk egy AWS Cloud9 interaktív fejlesztői környezet (IDE).
- Az AWS Cloud9 konzolon válassza a lehetőséget környezetek a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Környezet létrehozása.
- A Név¸ írjon be egy nevet (például
emr-fgac-hudi-env
). - A többi beállítást tartsa meg alapértelmezettként.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
- Amikor az IDE készen áll, válasszon Nyisd ki megnyitni.
- Az AWS Cloud9 IDE-ben a filé menüben válasszon Helyi fájlok feltöltése.
- Töltse fel a kulcspár fájlt (
emr-fgac-hudi-keypair.pem
). - Válassza ki a plusz jelet, és válassza ki Új terminál.
- A terminálba írja be a következő parancssorokat:
Ne feledje, hogy a példakód a koncepció bizonyítéka, csak demonstrációs céllal. Éles rendszerek esetén használjon megbízható hitelesítési hatóságot (CA) a tanúsítványok kiadásához. Hivatkozni Tanúsítványok biztosítása az Amazon EMR titkosítással szállított adatok titkosításához a részletekért.
Telepítse a megoldást az AWS CloudFormation segítségével
Biztosítunk egy AWS felhőképződés sablon, amely automatikusan beállítja a következő szolgáltatásokat és összetevőket:
- Egy S3 vödör az adattóhoz. Tartalmazza a minta TPC-DS adatkészletet.
- Egy EMR-fürt biztonsági konfigurációval és nyilvános DNS-sel.
- EMR futásidejű IAM szerepkörök Lake Formation finomszemcsés engedélyekkel:
- -hudi-db-creator-role – Ez a szerepkör Apache Hudi adatbázisok és táblák létrehozására szolgál.
- -hudi-table-pii-role – Ez a szerepkör engedélyt ad a Hudi táblák összes oszlopának lekérdezésére, beleértve a személyazonosításra alkalmas adatokat tartalmazó oszlopokat is.
- -hudi-tábla-nem-pii-szerep – Ez a szerepkör engedélyt ad azoknak a Hudi-tábláknak a lekérdezésére, amelyek a Lake Formation szerint kiszűrték a személyazonossági adatok oszlopait.
- A SageMaker Studio végrehajtási szerepkörei, amelyek lehetővé teszik a felhasználók számára, hogy felvegyék a megfelelő EMR futásidejű szerepköreiket.
- Hálózati erőforrások, például VPC, alhálózatok és biztonsági csoportok.
Az erőforrások telepítéséhez hajtsa végre a következő lépéseket:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Gyors verem létrehozása a CloudFormation verem elindításához.
- A Verem neve, írjon be egy veremnevet (például
rsv2-emr-hudi-blog
). - A Ec2KeyPair, írja be a kulcspár nevét.
- A Tétlenségi időtúllépés, adjon meg egy tétlenségi időt az EMR-fürt számára, hogy ne kelljen fizetni a fürtért, amikor azt nem használják.
- A InitS3Bucket, írja be az Amazon EMR titkosítási tanúsítvány .zip fájl mentéséhez létrehozott S3 csoport nevét.
- A S3CertsZip, írja be az Amazon EMR titkosítási tanúsítvány .zip fájl S3 URI-jét.
- választ Tudomásul veszem, hogy az AWS CloudFormation létrehozhat IAM-erőforrásokat egyéni névvel.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.
A CloudFormation verem üzembe helyezése körülbelül 10 percet vesz igénybe.
A Lake Formation beállítása az Amazon EMR-integrációhoz
Hajtsa végre a következő lépéseket a Lake Formation beállításához:
- A Lake Formation konzolon válassza a lehetőséget Alkalmazásintegrációs beállítások alatt Adminisztráció a navigációs ablaktáblában.
- választ Engedélyezze a külső motorok számára az adatok szűrését a Lake Formation által regisztrált Amazon S3 helyeken.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon EMR mert Munkamenet címke értékei.
- Adja meg a következőhöz tartozó AWS-fiókazonosítóját AWS-fiókazonosítók.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatbázisok alatt Adatkatalógus a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatbázis létrehozása.
- A Név, adja meg az alapértelmezett értéket.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatbázis létrehozása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Data Lake engedélyek alatt Engedélyek a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
- választ IAM felhasználók és szerepkörök.
- Válassza ki az IAM-szerepeket.
- A Adatbázisok, válassza az alapértelmezett lehetőséget.
- A Adatbázis engedélyekválassza Írja le.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
Másolja a Hudi JAR fájlt az Amazon EMR HDFS-be
Nak nek használja a Hudi-t a Jupyter notebookokkal, az alábbi lépéseket kell végrehajtania az EMR-fürt esetében, amely magában foglalja egy Hudi JAR-fájl másolását az Amazon EMR helyi könyvtárából a HDFS-tárolójába, hogy beállíthasson egy Spark-munkamenetet a Hudi használatára:
- Engedélyezze a bejövő SSH-forgalmat (22-es port).
- Másolja ki az értékét Elsődleges csomópont nyilvános DNS (például ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) az EMR-fürtből Összegzésként szakasz.
- Térjen vissza az előző AWS Cloud9 terminálhoz, amelyet az EC2 kulcspár létrehozásához használt.
- Futtassa a következő parancsot az SSH-hoz az EMR elsődleges csomópontjába. Cserélje ki a helyőrzőt az EMR DNS-állomásnevére:
- Futtassa a következő parancsot a Hudi JAR fájl HDFS-re másolásához:
Hozza létre a Hudi adatbázist és táblákat a Lake Formationben
Most készen állunk a Hudi adatbázis és táblák létrehozására az EMR futásidejű szerepkör által engedélyezett FGAC-val. A EMR futásidejű szerepkör egy IAM-szerep, amelyet akkor adhat meg, amikor munkát vagy lekérdezést küld el egy EMR-fürthöz.
Adjon adatbázis-készítői engedélyt
Először is adjunk engedélyt a Lake Formation adatbázis-készítőjének<STACK-NAME>-hudi-db-creator-role
:
- Jelentkezzen be AWS-fiókjába rendszergazdaként.
- A Lake Formation konzolon válassza a lehetőséget Adminisztratív szerepkörök és feladatok alatt Adminisztráció a navigációs ablaktáblában.
- Erősítse meg, hogy az AWS bejelentkezési felhasználóját hozzáadta Data Lake-rendszergazdaként.
- A Adatbázis létrehozója szakaszban válassza Grant.
- A IAM felhasználók és szerepkörök, választ
<STACK-NAME>-hudi-db-creator-role
. - A Katalógusengedélyekválassza Adatbázis létrehozása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
Regisztrálja az adattó helyét
Ezután regisztráljuk az S3 adattó helyét a Lake Formationben:
- A Lake Formation konzolon válassza a lehetőséget Data tó helyei alatt Adminisztráció a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Regisztrálja a helyet.
- A Amazon S3 elérési út, Válasszon Tallózás és válassza ki a Data Lake S3 vödröt. (
<STACK_NAME>s3bucket-XXXXXXX
) létrehozva a CloudFormation veremből. - A IAM szerepkör, választ
<STACK-NAME>-hudi-db-creator-role
. - A Engedélyezési módválassza Tóképződmény.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Regisztrálja a helyet.
Adjon engedélyt az adatok helyére
Ezután meg kell adnunk<STACK-NAME>-hudi-db-creator-role
az adatok helyének engedélyezése:
- A Lake Formation konzolon válassza a lehetőséget Adathelyek alatt Engedélyek a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
- A IAM felhasználók és szerepkörök, választ
<STACK-NAME>-hudi-db-creator-role
. - A Tárolási helyek, lépjen be az S3 vödörbe (
<STACK_NAME>-s3bucket-XXXXXXX
). - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
Csatlakozzon az EMR-fürthöz
Most pedig használjunk egy Jupyter-jegyzetfüzetet a SageMaker Studio-ban, hogy csatlakozzunk az EMR-fürthöz az adatbázis-készítő EMR futásidejű szerepkörrel:
- A SageMaker konzolon válassza a lehetőséget Domains a navigációs ablaktáblában.
- Válassza ki a domaint
<STACK-NAME>-Studio-EMR-LF-Hudi
. - A Indít menüt a felhasználói profil mellett
<STACK-NAME>-hudi-db-creator
, választ tanulmány.
- Töltse le a notebookot rsv2-hudi-db-creator-notebook.
- Válassza ki a feltöltés ikont.
- Válassza ki a letöltött Jupyter notebookot, és válassza ki Nyisd ki.
- Nyissa meg a feltöltött jegyzetfüzetet.
- A Kép, választ SparkMagic.
- A mag, választ PySpark.
- Hagyja a többi konfigurációt alapértelmezettként, és válassza ki választ.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Fürt az EMR-fürthöz való csatlakozáshoz.
- Válassza ki az EMR-t az EC2 klaszteren (
<STACK-NAME>-EMR-Cluster
) létrehozva a CloudFormation veremmel. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Csatlakozás.
- A EMR végrehajtási szerep, választ
<STACK-NAME>-hudi-db-creator-role
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Csatlakozás.
Hozzon létre adatbázisokat és táblákat
Most követheti a notebook lépéseit a Hudi adatbázis és táblák létrehozásához. A fő lépések a következők:
- Amikor elindítja a notebookot, konfigurálja
“spark.sql.catalog.spark_catalog.lf.managed":"true"
tájékoztatni a Sparkot arról, hogy a spark_catalog-ot a Lake Formation védi. - Hozzon létre Hudi táblákat a következő Spark SQL használatával.
- Szúrjon be adatokat a forrástáblából a Hudi táblákba.
- Illessze be újra az adatokat a Hudi táblákba.
Kérdezze le a Hudi táblákat a Lake Formation segítségével az FGAC segítségével
Miután létrehozta a Hudi adatbázist és táblákat, készen áll a táblák lekérdezésére a Lake Formation finomszemcsés hozzáférés-vezérlésével. Kétféle Hudi táblát hoztunk létre: Copy-On-Write (COW) és Merge-On-Read (MOR). A COW tábla oszlopos formátumban (Parquet) tárolja az adatokat, és minden frissítés a fájlok új verzióját hozza létre az írás során. Ez azt jelenti, hogy a Hudi minden frissítésnél újraírja a teljes fájlt, ami erőforrásigényesebb lehet, de gyorsabb olvasási teljesítményt biztosít. A MOR-t viszont olyan esetekben vezetik be, amikor a COW nem optimális, különösen nehéz írási vagy változtatási munkaterhelés esetén. Egy MOR táblában minden frissítéskor a Hudi csak a módosított rekord sorát írja ki, ami csökkenti a költségeket és lehetővé teszi az alacsony késleltetésű írást. Az olvasási teljesítmény azonban lassabb lehet a COW táblákhoz képest.
Táblázat-hozzáférési engedély megadása
Az IAM szerepkört használjuk<STACK-NAME>-hudi-table-pii-role
PII oszlopokat tartalmazó Hudi COW és MOR lekérdezéséhez. Először a Lake Formationen keresztül adunk hozzáférést az asztalhoz:
- A Lake Formation konzolon válassza a lehetőséget Data Lake engedélyek alatt Engedélyek a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
<STACK-NAME>-hudi-table-pii-role
mert IAM felhasználók és szerepkörök. - Válassza a
rsv2_blog_hudi_db_1
adatbázis számára Adatbázisok. - A Asztalok, válassza ki a Jupyter notebookban létrehozott négy Hudi táblát.
- A Táblázatengedélyekválassza választ.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
Személyazonosításra alkalmas oszlopok lekérdezése
Most már készen áll a notebook futtatására a Hudi táblák lekérdezéséhez. Kövessük az előző szakaszhoz hasonló lépéseket a jegyzetfüzet SageMaker Studio alkalmazásban való futtatásához:
- A SageMaker konzolon navigáljon a
<STACK-NAME>-Studio-EMR-LF-Hudi
domain. - A Indít melletti menü
<STACK-NAME>-hudi-table-reader
felhasználói profil, válassza ki tanulmány. - Töltse fel a letöltött jegyzetfüzetet rsv2-hudi-table-pii-reader-notebook.
- Nyissa meg a feltöltött jegyzetfüzetet.
- Ismételje meg a notebook beállítási lépéseit, és csatlakozzon ugyanahhoz az EMR-fürthöz, de használja a szerepet
<STACK-NAME>-hudi-table-pii-role
.
A jelenlegi szakaszban az FGAC-kompatibilis EMR-fürtnek le kell kérdeznie a Hudi commit time oszlopát a növekményes lekérdezések és az időutazás végrehajtásához. Nem támogatja a Spark „időbélyeg” szintaxisát és Spark.read()
. Aktívan dolgozunk azon, hogy mindkét művelet támogatását beépítsük az Amazon EMR jövőbeli kiadásaiba, az FGAC engedélyezésével.
Most már követheti a jegyzetfüzet lépéseit. Íme néhány kiemelt lépés:
- Futtasson le egy pillanatképes lekérdezést.
- Inkrementális lekérdezés futtatása.
- Futtasson le egy időutazási lekérdezést.
- Futtasson MOR olvasásra optimalizált és valós idejű táblalekérdezéseket.
A Hudi táblák lekérdezése oszlop- és sorszintű adatszűrőkkel
Az IAM szerepkört használjuk<STACK-NAME>-hudi-table-non-pii-role
a Hudi táblák lekérdezéséhez. Ez a szerepkör nem kérdezhet le személyazonosításra alkalmas adatokat tartalmazó oszlopokat. A Lake Formation oszlop- és sorszintű adatszűrőit használjuk a finomszemcsés hozzáférés-vezérlés megvalósításához:
- A Lake Formation konzolon válassza a lehetőséget Adatszűrők alatt Adatkatalógus a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre új szűrőt.
- A Adatszűrő neve, belép
customer-pii-filter
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
rsv2_blog_hudi_db_1
mert Cél adatbázis. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
rsv2_blog_hudi_mor_sql_dl_customer_1
mert Céltábla. - választ Oszlopok kizárása és válassza a
c_customer_id
,c_email_address
ésc_last_name
oszlopok. - belép
c_birth_country != 'HONG KONG'
mert Sorszűrő kifejezés. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre szűrőt.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Data Lake engedélyek alatt Engedélyek a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
<STACK-NAME>-hudi-table-non-pii-role
mert IAM felhasználók és szerepkörök. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
rsv2_blog_hudi_db_1
mert Adatbázisok. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
rsv2_blog_hudi_mor_sql_dl_tpc_customer_1
mert Asztalok. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
customer-pii-filter
mert Adatszűrők. - A Adatszűrő engedélyekválassza választ.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Grant.
Kövessük a hasonló lépéseket a notebook SageMaker Studio alkalmazásban való futtatásához:
- A SageMaker konzolon navigáljon a tartományhoz
Studio-EMR-LF-Hudi
. - A Indít menü a
hudi-table-reader
felhasználói profil, válassza ki tanulmány. - Töltse fel a letöltött jegyzetfüzetet rsv2-hudi-table-non-pii-reader-notebook És válasszon Nyisd ki.
- Ismételje meg a notebook beállítási lépéseit, és csatlakozzon ugyanahhoz az EMR-fürthöz, de válassza ki a szerepet
<STACK-NAME>-hudi-table-non-pii-role
.
Most már követheti a jegyzetfüzet lépéseit. A lekérdezés eredményeiből látható, hogy a Lake Formation adatszűrőn keresztüli FGAC alkalmazásra került. A szerepkör nem láthatja a személyazonosításra alkalmas adatok oszlopaitc_customer_id
,c_last_name
ésc_email_address
. Továbbá, a sorokHONG KONG
kiszűrték.
Tisztítsuk meg
Miután végzett a megoldással, javasoljuk, hogy az alábbi lépésekkel tisztítsa meg az erőforrásokat a váratlan költségek elkerülése érdekében:
- Zárja le a SageMaker Studio alkalmazásokat a felhasználói profilokhoz.
Az EMR-fürt automatikusan törlődik az üresjárati időtúllépési érték után.
- Törölje a Amazon elasztikus fájlrendszer (Amazon EFS) kötet készült a tartományhoz.
- Ürítse ki az S3 vödröket a CloudFormation verem által létrehozott.
- Az AWS CloudFormation konzolon törölje a veremet.
Következtetés
Ebben a bejegyzésben az Apachi Hudi-t, az OTF-táblák egyik típusát használtuk, hogy bemutassuk ezt az új funkciót az Amazon EMR finomszemcsés hozzáférés-vezérlésének érvényesítésére. A Lake Formationben részletes engedélyeket határozhat meg az OTF-táblákhoz, és Spark SQL-lekérdezéseken keresztül alkalmazhatja azokat az EMR-fürtökön. Használhatja a tranzakciós adattó-szolgáltatásokat is, például a pillanatfelvétel-lekérdezések futtatását, a növekményes lekérdezéseket, az időutazást és a DML-lekérdezést. Kérjük, vegye figyelembe, hogy ez az új funkció az összes OTF-táblát lefedi.
Ez a funkció az Amazon EMR 6.15-ös kiadásától indul Régiók ahol elérhető az Amazon EMR. Az Amazon EMR és a Lake Formation integrációjával magabiztosan kezelheti és feldolgozhatja a nagy adatokat, így betekintést nyerhet, és megkönnyíti a tájékozott döntéshozatalt, miközben fenntartja az adatbiztonságot és az irányítást.
További információért lásd: A Lake Formation engedélyezése az Amazon EMR segítségével és bátran forduljon az AWS Solutions Architects-hez, akik segítségére lehetnek az adatút során.
A szerzőről
Raymond Lai Senior Solutions Architect, aki a nagyvállalati ügyfelek igényeinek kiszolgálására specializálódott. Szakértelme abban rejlik, hogy segít ügyfeleinek bonyolult vállalati rendszerek és adatbázisok AWS-be való migrálásában, vállalati adattárház és Data Lake platformok felépítésében. Raymond jeleskedik az AI/ML felhasználási esetekre vonatkozó megoldások azonosításában és tervezésében, különös tekintettel az AWS szerver nélküli megoldásokra és az eseményvezérelt architektúra tervezésére.
Bin Wang, PhD, az AWS Senior Analytic Specialist Solutions Architect, aki több mint 12 éves tapasztalattal büszkélkedhet az ML iparágban, különös tekintettel a reklámozásra. Szakértelemmel rendelkezik a természetes nyelvi feldolgozásban (NLP), az ajánlórendszerekben, a különféle ML algoritmusokban és az ML műveletekben. Mélyen szenvedélyes az ML/DL és a big data technikák alkalmazása valós problémák megoldására.
Aditya Shah az AWS szoftverfejlesztő mérnöke. Érdekelik az adatbázisok és az adattárház-motorok, és olyan motorok teljesítményoptimalizálásán, biztonsági megfelelésén és ACID-megfelelőségén dolgozott, mint az Apache Hive és az Apache Spark.
Melody Yang az Amazon EMR vezető Big Data Solution Architect-je az AWS-nél. Tapasztalt analitikai vezető, aki az AWS-ügyfelekkel dolgozik, hogy útmutatást és technikai tanácsokat adjon a legjobb gyakorlatokhoz, hogy elősegítse az adatátalakítás sikerét. Érdeklődési területe a nyílt forráskódú keretrendszerek és automatizálás, az adatkezelés és a DataOps.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/
- :van
- :is
- :nem
- :ahol
- $ UP
- 1
- 10
- 100
- 11
- 12
- 130
- 15%
- 16
- 17
- 20
- 22
- 400
- 7
- 8
- 9
- a
- Rólunk
- hozzáférés
- Fiók
- elismerni
- cselekvések
- aktívan
- hozzáadott
- Ezen kívül
- címek
- admin
- adminisztrátorok
- Hirdetés
- tanács
- Után
- újra
- AI / ML
- algoritmusok
- Minden termék
- lehetővé
- megengedett
- lehetővé teszi, hogy
- mellett
- Is
- amazon
- Amazon EC2
- Amazon EMR
- Az Amazon Web Services
- an
- elemzés
- Az elemzők
- Analitikus
- analitika
- elemzése
- és a
- bármilyen
- Apache
- Apache Spark
- Alkalmazás
- alkalmazott
- alkalmaz
- Alkalmazása
- építészek
- építészet
- VANNAK
- területek
- körül
- AS
- segít
- Támogatás
- segítő
- feltételezni
- At
- könyvvizsgálat
- hatóság
- felhatalmazott
- automatikusan
- Automatizálás
- elérhető
- elkerülése érdekében
- AWS
- AWS Cloud9
- AWS felhőképződés
- AWS-tó formáció
- vissza
- alapján
- BE
- óta
- mögött
- hogy
- Előnyök
- kívül
- BEST
- Nagy
- Big adatok
- blogok
- dicsekvés
- mindkét
- épít
- de
- by
- CA
- TUD
- képes
- visz
- szállítás
- eset
- esetek
- katalógus
- ellátás
- bizonyos
- igazolás
- tanúsítványok
- Tanúsítvány
- változik
- megváltozott
- Változások
- Kína
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- Takarításra
- Cloud9
- Fürt
- kód
- Oszlop
- Oszlopok
- COM
- kombináció
- elkövetni
- Companies
- képest
- teljes
- teljesítés
- összetevő
- alkatrészek
- Kiszámít
- számítógép
- koncepció
- Körülmények
- Magatartás
- magabiztosan
- Configuration
- konfigurációk
- Csatlakozás
- Konzol
- építése
- kapcsolat
- tartalmaz
- tartalmaz
- ellenőrzés
- vezérelt
- ellenőrzések
- másolás
- Megfelelő
- Költség
- kiadások
- ország
- burkolatok
- teremt
- készítette
- teremt
- létrehozása
- Teremtő
- Jelenlegi
- szokás
- Ügyfelek
- dátum
- adat hozzáférés
- adatelemzés
- adattó
- Adatplatform
- Adatvédelem
- adatfeldolgozás
- adatbiztonság
- adattárház
- adatbázis
- adatbázisok
- Döntéshozatal
- mélyen
- alapértelmezett
- meghatározott
- Delta
- bizonyítani
- bemutatását,
- telepíteni
- bevetés
- Design
- tervezés
- részletek
- Fejlesztés
- különböző
- különböző
- számos
- dns
- do
- nem
- Nem
- domain
- csinált
- ne
- le-
- letöltés
- hajtott
- alatt
- minden
- más
- lehetővé
- engedélyezve
- lehetővé teszi
- titkosítás
- végén
- végpontok
- érvényesíteni
- Motor
- mérnök
- Mérnöki
- Motorok
- biztosítására
- biztosítja
- biztosítása
- belép
- Vállalkozás
- vállalati ügyfelek
- Egész
- Környezet
- Eter (ETH)
- esemény
- Minden
- példa
- végrehajtás
- létezik
- tapasztalat
- tapasztalt
- szakvélemény
- kutatás
- nyúlik
- külső
- megkönnyítését
- gyorsabb
- Funkció
- Jellemzők
- érez
- filé
- Fájlok
- szűrő
- szűrő
- Szűrők
- vezetéknév
- Összpontosít
- koncentrál
- következik
- következő
- következik
- A
- formátum
- képződés
- formátumok
- négy
- Keretrendszer
- keretek
- Ingyenes
- ból ből
- eleget tesz
- Tele
- funkcionalitás
- további
- jövő
- Nyereség
- generált
- kormányzás
- szabályozott
- biztosít
- szemcsés
- nagymértékben
- Csoport
- Csoportok
- útmutatást
- kéz
- Legyen
- he
- neki
- itt
- Kiemelt
- övé
- történeti
- történelem
- Kaptár
- Hong
- Hong Kong
- Ház
- Hogyan
- How To
- azonban
- HTML
- http
- HTTPS
- IAM
- ICON
- ID
- ötlet
- azonosítani
- azonosító
- Idle
- if
- illusztrálja
- végre
- javul
- in
- magában foglalja a
- Beleértve
- amely magában foglalja
- járulékos
- India
- ipar
- tájékoztat
- információ
- tájékoztatták
- bemenet
- meglátások
- integrált
- integrálása
- integráció
- interaktív
- érdekelt
- érdekek
- Felület
- belső
- bele
- bonyolult
- Bevezetett
- Bemutatja
- kérdés
- IT
- ITS
- Munka
- Állások
- utazás
- jpg
- Jupyter Jegyzetfüzet
- Kulcs
- Kong
- tó
- nyelv
- nagy
- keresztnév
- indít
- indított
- vezető
- TANUL
- szintek
- fekszik
- mint
- LIMIT
- vonalak
- helyi
- elhelyezkedés
- helyszínek
- Belépés
- fontos
- csinál
- kezelése
- sikerült
- vezetés
- menedzser
- sok
- Lehet..
- eszközök
- mechanizmusok
- találkozó
- Menü
- Metaadatok
- esetleg
- vándorló
- jegyzőkönyv
- ML
- ML algoritmusok
- módosított
- több
- mozgalom
- név
- nevek
- Természetes
- Természetes nyelv
- Természetes nyelvi feldolgozás
- Keresse
- Navigáció
- Szükség
- igények
- Új
- új funkció
- újonnan
- következő
- NLP
- csomópont
- megjegyezni
- jegyzetfüzet
- laptopok
- Most
- objektumok
- of
- gyakran
- on
- ONE
- csak
- nyitva
- nyílt forráskódú
- openssl
- Művelet
- optimálisan
- Optimalizálja
- opció
- Opciók
- or
- érdekében
- szervezet
- Más
- ki
- felett
- pár
- üvegtábla
- különös
- különösen
- szenvedélyes
- fizet
- teljesítmény
- előadó
- engedély
- engedélyek
- Személyesen
- phd
- PII
- placeholder
- emelvény
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- kérem
- plusz
- pont
- Népszerű
- rendelkezik
- állás
- gyakorlat
- megőrzése
- előző
- elsődleges
- magánélet
- kiváltság
- kiváltságok
- problémák
- folyamat
- feldolgozás
- Termelés
- profil
- Profilok
- bizonyíték
- bizonyíték a koncepcióra
- védett
- védelem
- ad
- biztosít
- amely
- nyilvános
- célokra
- lekérdezések
- Olvass
- Olvasás
- kész
- való Világ
- real-time
- ajánl
- rekord
- felépülés
- csökkenti
- csökkentő
- utal
- kifejezés
- tükrözi
- vidék
- Regisztráció
- nyilvántartott
- előírások
- engedje
- Releases
- cserélni
- kötelező
- követelmények
- forrás
- erőforrás-igényes
- Tudástár
- eredményez
- Eredmények
- jogok
- Szerep
- szerepek
- SOR
- rsa
- szabályok
- futás
- futás
- futásidejű
- sagemaker
- azonos
- Megtakarítás
- Rész
- biztonság
- biztosított
- biztonság
- lát
- Keresnek
- válasszuk
- idősebb
- érzékeny
- szerver
- vagy szerver
- Szolgáltatások
- ülés
- készlet
- Szettek
- beállítások
- felépítés
- ő
- <p></p>
- jelentősen
- hasonló
- Egyszerű
- egyszerűsíti
- egyszerűsítése
- óta
- Pillanatkép
- So
- szoftver
- szoftverfejlesztés
- megoldások
- Megoldások
- SOLVE
- néhány
- forrás
- Szikra
- szakember
- specializálódott
- SQL
- verem
- Színpad
- kezdet
- kezdődött
- Kezdve
- nyilatkozatok
- Lépései
- tárolás
- árnyékolók
- Stratégia
- Húr
- stúdió
- beküldése
- alhálózatok
- siker
- ilyen
- ÖSSZEFOGLALÓ
- támogatás
- Támogatja
- biztos
- szintaxis
- Systems
- táblázat
- TAG
- tart
- Műszaki
- technikák
- sablon
- terminál
- hogy
- A
- The Source
- azok
- Őket
- akkor
- Ott.
- Ezek
- ők
- ezt
- három
- Keresztül
- idő
- időutazás
- időrendben
- nak nek
- Csomagkövetés
- tranzakció
- ügyleti
- Átalakítás
- tranzit
- utazás
- igaz
- Megbízható
- Ts
- kettő
- típus
- típusok
- ui
- alatt
- Váratlan
- ismeretlen
- kinyitó
- Frissítések
- frissítve
- tiszteletben
- feltöltve
- URI
- használ
- használati eset
- használt
- használó
- Felhasználók
- segítségével
- érték
- különféle
- változat
- verzió
- keresztül
- láthatóság
- kötet
- Raktár
- Raktározás
- we
- háló
- webes szolgáltatások
- amikor
- mivel
- ami
- míg
- WHO
- lesz
- val vel
- belül
- dolgozott
- dolgozó
- ír
- év
- te
- A te
- zephyrnet
- nulla
- Postai irányítószám