Bemutatjuk az AWS Glue 3.0-t optimalizált Apache Spark 3.1 futási környezettel a gyorsabb adatintegráció érdekében

Forrás csomópont: 1052623

2020 augusztusában bejelentettük a az AWS Glue 2.0 elérhetősége. AWS ragasztó 2.0 10-szeresére csökkentette a munkák indítási idejét, lehetővé téve az ügyfelek számára, hogy átlagosan 45%-os költségmegtakarítást érjenek el a kivonatolási, átalakítási és betöltési (ETL) munkáik során. A gyors kezdési idő lehetővé teszi az ügyfelek számára, hogy könnyen alkalmazzák az AWS ragasztót kötegelési, mikro-adagolási és streamelési felhasználási esetekben. Az elmúlt évben az AWS Glue ETL szolgáltatásból kiszolgáló nélküli adatintegrációs szolgáltatássá fejlődött, amely minden szükséges képességet kínál egy modern adatplatform felépítéséhez, működtetéséhez és méretezéséhez. Az alábbiakban felsorolunk néhány olyan használati esetet, amelyeket az AWS ragasztóval végrehajthat:

  • Adatok átvitele sokféle adatforrásba és szoftverbe szolgáltatásként (SaaS) alkalmazások segítségével AWS Glue egyedi csatlakozók
  • Töltsön fel egy központi AWS ragasztóadat-katalógust a segítségével AWS ragasztó lánctalpas, amelyek képesek a sémára következtetni, az adatsodródást észlelni és a metaadatokat egyszerűen és gyorsan naprakészen tartani.
  • Az AWS Glue munkafolyamatokon futó újrafelhasználható adatfolyamatok létrehozása és megosztása a használatával egyedi tervrajzok
  • Az adatok közel valós idejű feldolgozása segítségével eseményvezérelt munkafolyamatok és a AWS Glue streaming.
  • Vizuálisan tisztítsa meg és készítse elő az adatokat elemzésre AWS ragasztó DataBrew
  • Az AWS Glue ETL munkák vizuális szerzője AWS ragasztóstúdió az adatfolyamok felépítésének, karbantartásának és figyelésének egyszerűsítése érdekében.

Örömmel jelentjük be az AWS Glue 3.0-s verzióját. Az AWS Glue 3.0 teljesítményoptimalizált Apache Spark 3.1 futási környezetet mutat be a kötegelt és adatfolyam-feldolgozáshoz. Az új motor felgyorsítja az adatfeldolgozást, -feldolgozást és -integrációt, lehetővé téve az adattó hidratálását és az adatokból való gyorsabb betekintést.

Az AWS Glue 3.0-s verziója kiemeli

Teljesítményre optimalizált Spark futási idő nyílt forráskódon alapul Apache Spark 3.1.1 és az AWS Glue által kifejlesztett innovatív optimalizálásokkal továbbfejlesztve és Amazon EMR csapatok. Ezek az optimalizálások felgyorsítják az adatintegrációt és a lekérdezések feldolgozását olyan fejlett technikákkal, mint például az anyanyelven (C++) kifejlesztett SIMD alapú vektorizált olvasók, a memórián belüli oszlopos formátumok a feldolgozáshoz, az optimalizált keverés, a partíciók összevonása és a Spark adaptív lekérdezésvégrehajtása. Az AWS Glue 3.0 futtatókörnyezet frissített JDBC-illesztőprogramokkal készült az összes AWS Glue natív forráshoz, beleértve a MySQL-t, a Microsoft SQL Servert, az Oracle-t, a PostgreSQL-t és a MongoDB-t, hogy egyszerűbb, gyorsabb és biztonságosabb integrációt tegyen lehetővé az adatbázis-motorok új verzióival.

Gyorsabb olvasási és írási hozzáférés az AWS Glue 3.0 futtatókörnyezetével Amazon egyszerű tárolási szolgáltatás (Amazon S3) segítségével vektorizált olvasók és Amazon S3 optimalizált kimeneti committerek. Ezek az optimalizálások javítják a Spark-alkalmazások teljesítményét a népszerű ügyfél-munkaterheléseknél, soralapú formátumok (például CSV) olvasása és oszlopos formátumok (pl. Apache parketta.

Gyorsabb és hatékonyabb partíciómetszés az AWS Glue 3.0 futtatókörnyezetével nagy, erősen particionált kezelt táblák elemzéséhez AWS ragasztóadat-katalógus. Erősen particionált adatkészletek esetén a partíciók metszése jelentősen csökkentheti a költségeket katalógus-partíció listázása és a lekérdezés tervezése a szükségtelen partíciók kiszűrésével partíciós indexek.

Finomszemcsés hozzáférés-szabályozás az AWS Glue 3.0 futtatókörnyezetével a kötegelt feladatokhoz AWS-tó formáció. Mostantól elérheti adatait adatbázis-, tábla-, oszlop-, sor- és cellaszinten az erőforrásnevek és a Lake Formation címke attribútumainak használatával (előzetes verzióban érhető el).

ACID tranzakciók az AWS Glue 3.0 futási környezettel együtt kínálva a Lake Formation Governed Tables-hez és a lekérdezésgyorsításhoz automatikus fájltömörítéssel a Data Lake-en (előzetes verzióban érhető el).

Továbbfejlesztett felhasználói élmény a Spark alkalmazások figyeléséhez, hibakereséséhez és hangolásához. A Spark 3.1.1 lehetővé teszi a továbbfejlesztett Spark UI élmény amely magában foglalja a új Spark végrehajtó memória metrikák és a Spark Structured Streaming metrikák amelyek hasznosak az AWS Glue streaming munkákhoz.

Az AWS Glue 3.0 segítségével továbbra is élvezheti a csökkentett indítási késleltetés előnyeit, ami javítja a feladatok általános végrehajtási idejét, és interaktívabbá teszi a feladatok és a folyamatfejlesztést. Az AWS Glue 3.0 Spark-feladatok számlázása másodpercenként történik, minimum 1 perccel, hasonlóan az AWS Glue 2.0-hoz.

Az AWS Glue 3.0 használatának megkezdése

Az AWS Glue 3.0 használatát az AWS Glue Studio, az AWS Glue konzol, a legújabb AWS SDK és a AWS parancssori interfész (AWS CLI).

Az AWS Glue 3.0 használatának megkezdéséhez az AWS Glue Studio programban válassza ki a verziót Glue 3.0 – Támogatja a Spark 3.1, Scala 2, Python 3.

A meglévő AWS Glue-feladatok áttelepítéséhez AWS Glue 0.9, 1.0 és 2.0-ról AWS Glue 3.0-ra, lásd Az AWS ragasztófeladatok áttelepítése az AWS Glue 3.0-s verziójára.

Az AWS Glue 3.0 teljesítménye

Az AWS Glue 3.0 felgyorsítja a Spark alkalmazásait amellett, hogy csökkenti az indítási késéseket. A következő benchmark az AWS Glue 3.0 és az AWS Glue 2.0 közötti teljesítményjavulásokat mutatja be a nagy adatkészletek CSV-ből Apache Parquet formátumba konvertálására szolgáló népszerű ügyfélmunka érdekében. Az összehasonlítás a legnagyobbat használja store_sales táblázat a TPC-DS benchmark adatkészlet (3 TB). Minden Spark-feladat meleg 60-on fut G.2X dolgozók. Minden érték benne store_sales táblázat numerikus. Összehasonlítjuk a teljesítményt a séma érvényesítésével, az értékek numerikus adattípusokba öntésével és séma érvényesítés nélkül, karakterlánc típusba öntésével. A sémák numerikus típusokra való kényszerítése lehetővé teszi a kompakt memórián belüli megjelenítést és a gyorsabb deszerializálást. A séma kényszerítése nem tesz lehetővé rugalmasságot a karakterlánctípusokkal.

Az AWS Glue 3.0 akár 2.4-szeresére gyorsítja a teljesítményt az AWS Glue 2.0-hoz képest a vektorizált olvasók használatával, amelyek C++ nyelven vannak megvalósítva. Mikro-párhuzamos SIMD CPU utasításokat is használ a gyorsabb adatelemzés, tokenizálás és indexelés érdekében. Ezenkívül az Apache Arrow-n alapuló, memórián belüli oszlopos formátumokba olvassa be az adatokat a jobb memória sávszélesség-kihasználás és az oszlopos tárolási formátumba, például az Apache Parquetbe való közvetlen konvertálás érdekében.

Következtetés

Ebben a bejegyzésben bemutattunk egy Apache Spark 3.1-en alapuló gyorsabb, hatékonyabb AWS Glue motort, amely innovatív funkciókat tartalmaz, amelyek lehetővé teszik a munkák gyorsabb működését és a költségek csökkentését. A feladatok konfigurációiban és szkriptjeiben csak kisebb változtatásokkal már ma elkezdheti használni az AWS Glue 3.0-t. Ha többet szeretne megtudni az AWS Glue 3.0 új funkcióiról, könyvtárverzióiról és függőségeiről, lásd: Az AWS ragasztófeladatok áttelepítése az AWS Glue 3.0-s verziójára.


A szerzőkről

Noritaka Sekiyama az AWS Glue csapatának vezető Big Data építésze. Szenvedélye a gyorsan növekvő adatplatformok felépítése, az olyan elosztott big data szoftverek mélyére merülése, mint az Apache Spark, az újrafelhasználható szoftvertermékek készítése Data Lake-ekhez, valamint a tudás megosztása az AWS Big Data blogbejegyzéseiben.

Neil Gupta az AWS Glue csapatának szoftverfejlesztő mérnöke. Szívesen kezeli a nagy adatforgalmi problémákat, és többet tud meg az elosztott rendszerekről.

XiaoRun Yu az AWS Glue csapatának szoftverfejlesztő mérnöke.

Rajendra Gujja az AWS Glue csapatának szoftverfejlesztő mérnöke. Szenvedélyesen rajong az elosztott számítástechnikáért és mindenért, ami az adatokkal kapcsolatos.

Mohit Saxena az AWS Glue csapatának szoftvermérnöki menedzsere. Csapata elosztott rendszereken dolgozik, hogy hatékonyan kezelje az adatforrásokat az AWS-en, és optimalizálja az Apache Sparkot a teljesítmény és a megbízhatóság érdekében.

Kinshuk Pahare az AWS Glue csapatának fő termékmenedzsere.

Forrás: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-3-0-with-optimized-apache-spark-3-1-runtime-for-faster-data-integration/

Időbélyeg:

Még több AWS