ใช้ Apache Iceberg ใน Data Lake เพื่อรองรับการประมวลผลข้อมูลแบบเพิ่มหน่วย

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ภูเขาน้ำแข็งอาปาเช่ เป็นรูปแบบตารางเปิดสำหรับชุดข้อมูลการวิเคราะห์ขนาดใหญ่มาก ซึ่งจะรวบรวมข้อมูลเมตาดาต้าเกี่ยวกับสถานะของชุดข้อมูลขณะที่ชุดข้อมูลมีการพัฒนาและเปลี่ยนแปลงตลอดเวลา เพิ่มตารางลงในเครื่องมือคำนวณ ได้แก่ Spark, Trino, PrestoDB, Flink และ Hive โดยใช้รูปแบบตารางประสิทธิภาพสูงที่ทำงานเหมือนกับตาราง SQL Iceberg ได้รับความนิยมอย่างมากจากการรองรับธุรกรรม ACID ใน data lake และคุณสมบัติต่างๆ เช่น schema และการพัฒนาพาร์ติชัน การเดินทางข้ามเวลา และการย้อนกลับ

การรวม Apache Iceberg ได้รับการสนับสนุนโดยบริการวิเคราะห์ของ AWS ได้แก่ อเมซอน EMR, อเมซอน อาเธน่าและ AWS กาว. Amazon EMR สามารถจัดเตรียมคลัสเตอร์ด้วย Spark, Hive, Trino และ Flink ที่สามารถเรียกใช้ Iceberg เริ่มต้นด้วย Amazon EMR เวอร์ชัน 6.5.0 คุณทำได้ ใช้ Iceberg กับคลัสเตอร์ EMR ของคุณ โดยไม่ต้องมีการดำเนินการบูตสแตรป ในช่วงต้นปี 2022 AWS ประกาศความพร้อมใช้งานทั่วไปของธุรกรรม Athena ACID ซึ่งขับเคลื่อนโดย Apache Iceberg ที่เพิ่งเปิดตัว เอ็นจิ้นแบบสอบถาม Athena เวอร์ชัน 3 ให้การรวมที่ดีขึ้นกับรูปแบบตารางภูเขาน้ำแข็ง AWS Glue 3.0 และใหม่กว่า รองรับเฟรมเวิร์ก Apache Iceberg สำหรับทะเลสาบข้อมูล

ในโพสต์นี้ เราจะพูดถึงสิ่งที่ลูกค้าต้องการใน Data Lake ที่ทันสมัย และวิธีที่ Apache Iceberg ช่วยตอบสนองความต้องการของลูกค้า จากนั้นเราจะอธิบายถึงวิธีแก้ปัญหาเพื่อสร้างทะเลสาบข้อมูล Iceberg ที่มีประสิทธิภาพสูงและกำลังพัฒนา บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และประมวลผลข้อมูลส่วนเพิ่มโดยการเรียกใช้คำสั่งแทรก อัปเดต และลบ SQL สุดท้าย เราจะแสดงวิธีปรับแต่งประสิทธิภาพกระบวนการเพื่อปรับปรุงประสิทธิภาพการอ่านและเขียน

Apache Iceberg จัดการกับสิ่งที่ลูกค้าต้องการใน Data Lake สมัยใหม่ได้อย่างไร

ลูกค้าจำนวนมากขึ้นเรื่อยๆ กำลังสร้าง Data Lake ด้วยข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง เพื่อรองรับผู้ใช้ แอปพลิเคชัน และเครื่องมือวิเคราะห์จำนวนมาก Data Lake มีความต้องการเพิ่มขึ้นเพื่อรองรับฐานข้อมูล เช่น คุณลักษณะต่างๆ เช่น ธุรกรรม ACID การอัปเดตและการลบในระดับบันทึก การเดินทางข้ามเวลา และการย้อนกลับ Apache Iceberg ได้รับการออกแบบมาเพื่อรองรับคุณสมบัติเหล่านี้ใน Data Lake ขนาดเพตะไบต์ที่คุ้มค่าบน Amazon S3

Apache Iceberg ตอบสนองความต้องการของลูกค้าด้วยการรวบรวมข้อมูลเมตาดาต้าที่หลากหลายเกี่ยวกับชุดข้อมูลในเวลาที่สร้างไฟล์ข้อมูลแต่ละไฟล์ มีสามชั้นในสถาปัตยกรรมของตารางภูเขาน้ำแข็ง: แคตตาล็อกภูเขาน้ำแข็ง ชั้นข้อมูลเมตา และชั้นข้อมูล ดังที่แสดงในรูปต่อไปนี้ (แหล่ง).

แค็ตตาล็อก Iceberg เก็บตัวชี้ข้อมูลเมตาไปยังไฟล์ข้อมูลเมตาของตารางปัจจุบัน เมื่อคิวรีแบบใช้เลือกข้อมูลกำลังอ่านตาราง Iceberg เอ็นจิ้นการสืบค้นจะไปที่แค็ตตาล็อกของ Iceberg ก่อน แล้วจึงดึงตำแหน่งของไฟล์ข้อมูลเมตาปัจจุบัน เมื่อใดก็ตามที่มีการอัปเดตตาราง Iceberg จะมีการสร้างสแน็ปช็อตใหม่ของตาราง และตัวชี้ข้อมูลเมตาจะชี้ไปที่ไฟล์ข้อมูลเมตาของตารางปัจจุบัน

ต่อไปนี้คือตัวอย่างแคตตาล็อก Iceberg ที่มีการใช้งาน AWS Glue คุณสามารถดูชื่อฐานข้อมูล ตำแหน่ง (เส้นทาง S3) ของตาราง Iceberg และตำแหน่งข้อมูลเมตา

ชั้นข้อมูลเมตามีไฟล์สามประเภท: ไฟล์ข้อมูลเมตา รายการรายการ และไฟล์รายการในลำดับชั้น ที่ด้านบนสุดของลำดับชั้นคือไฟล์ข้อมูลเมตา ซึ่งเก็บข้อมูลเกี่ยวกับสคีมาของตาราง ข้อมูลพาร์ติชัน และสแน็ปช็อต ภาพรวมชี้ไปที่รายการรายการ รายการรายการมีข้อมูลเกี่ยวกับไฟล์รายการแต่ละรายการที่ประกอบกันเป็นสแนปชอต เช่น ตำแหน่งของไฟล์รายการ พาร์ติชันที่เป็นของไฟล์ และขอบเขตล่างและบนสำหรับคอลัมน์พาร์ติชันสำหรับไฟล์ข้อมูลที่ติดตาม ไฟล์รายการติดตามไฟล์ข้อมูลตลอดจนรายละเอียดเพิ่มเติมเกี่ยวกับแต่ละไฟล์ เช่น รูปแบบไฟล์ ไฟล์ทั้งสามทำงานในลำดับชั้นเพื่อติดตามสแน็ปช็อต สคีมา การแบ่งพาร์ติชัน คุณสมบัติ และไฟล์ข้อมูลในตารางไอซ์เบิร์ก

ชั้นข้อมูลมีไฟล์ข้อมูลแต่ละไฟล์ของตารางภูเขาน้ำแข็ง Iceberg รองรับรูปแบบไฟล์ที่หลากหลาย เช่น Parquet, ORC และ Avro เนื่องจากตาราง Iceberg ติดตามไฟล์ข้อมูลแต่ละไฟล์ แทนที่จะชี้ไปยังตำแหน่งพาร์ติชันที่มีไฟล์ข้อมูลเท่านั้น จึงแยกการดำเนินการเขียนออกจากการดำเนินการอ่าน คุณสามารถเขียนไฟล์ข้อมูลเมื่อใดก็ได้ แต่ยอมรับการเปลี่ยนแปลงอย่างชัดเจนเท่านั้น ซึ่งจะสร้างเวอร์ชันใหม่ของไฟล์สแน็ปช็อตและข้อมูลเมตา

ภาพรวมโซลูชัน

ในโพสต์นี้ เราจะแนะนำวิธีแก้ปัญหาในการสร้างทะเลสาบข้อมูล Apache Iceberg ที่มีประสิทธิภาพสูงบน Amazon S3 ประมวลผลข้อมูลส่วนเพิ่มด้วยการแทรก อัพเดต และลบคำสั่ง SQL และปรับแต่งตาราง Iceberg เพื่อปรับปรุงประสิทธิภาพการอ่านและเขียน ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมของโซลูชัน

เพื่อสาธิตวิธีแก้ปัญหานี้ เราใช้ บทวิจารณ์ของลูกค้า Amazon ชุดข้อมูลในบัคเก็ต S3 (s3://amazon-reviews-pds/parquet/). ในกรณีการใช้งานจริง จะเป็นข้อมูลดิบที่จัดเก็บไว้ในบัคเก็ต S3 ของคุณ เราสามารถตรวจสอบขนาดข้อมูลได้ด้วยโค้ดต่อไปนี้ใน อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI):

//Run this AWS CLI command to check the data size
aws s3 ls --summarize --human-readable --recursive s3://amazon-reviews-pds/parquet

จำนวนวัตถุทั้งหมดคือ 430 และขนาดรวมคือ 47.4 GiB

ในการตั้งค่าและทดสอบโซลูชันนี้ เราทำตามขั้นตอนระดับสูงต่อไปนี้:

ตั้งค่าบัคเก็ต S3 ในโซนที่ดูแลจัดการเพื่อจัดเก็บข้อมูลที่แปลงแล้วในรูปแบบตาราง Iceberg
เปิดใช้งานคลัสเตอร์ EMR ด้วยการกำหนดค่าที่เหมาะสมสำหรับ Apache Iceberg
สร้างสมุดบันทึกใน EMR Studio
กำหนดค่าเซสชัน Spark สำหรับ Apache Iceberg
แปลงข้อมูลเป็นรูปแบบตาราง Iceberg และย้ายข้อมูลไปยังโซนที่ดูแลจัดการ
เรียกใช้คำสั่งแทรก อัปเดต และลบใน Athena เพื่อประมวลผลข้อมูลส่วนเพิ่ม
ดำเนินการปรับแต่งประสิทธิภาพ

เบื้องต้น

ในการปฏิบัติตามแนวทางปฏิบัตินี้ คุณต้องมี บัญชี AWS ด้วย AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ที่มีสิทธิ์เข้าถึงเพียงพอเพื่อจัดเตรียมทรัพยากรที่จำเป็น

ตั้งค่าบัคเก็ต S3 สำหรับข้อมูล Iceberg ในโซนที่ดูแลจัดการในที่จัดเก็บข้อมูลดิบของคุณ

เลือกภูมิภาคที่คุณต้องการสร้างบัคเก็ต S3 และระบุชื่อเฉพาะ:

s3://iceberg-curated-blog-data

เปิดใช้คลัสเตอร์ EMR เพื่อเรียกใช้งาน Iceberg โดยใช้ Spark

คุณสามารถสร้างคลัสเตอร์ EMR จาก คอนโซลการจัดการ AWS, Amazon EMR CLI หรือ ชุดพัฒนา AWS Cloud (AWS CDK) สำหรับโพสต์นี้ เราจะแนะนำวิธีการสร้างคลัสเตอร์ EMR จากคอนโซล

บนคอนโซล Amazon EMR ให้เลือก สร้างคลัสเตอร์.
Choose ตัวเลือกขั้นสูง.
สำหรับ การกำหนดค่าซอฟต์แวร์ให้เลือก Amazon EMR รุ่นล่าสุด ในเดือนมกราคม 2023 รุ่นล่าสุดคือ 6.9.0 Iceberg ต้องการรุ่น 6.5.0 ขึ้นไป
เลือก JupyterEnterpriseเกตเวย์ และ จุดประกาย เป็นซอฟต์แวร์ที่จะติดตั้ง
สำหรับ แก้ไขการตั้งค่าซอฟต์แวร์ให้เลือก เข้าสู่การกำหนดค่า และป้อน [{"classification":"iceberg-defaults","properties":{"iceberg.enabled":true}}].
ปล่อยให้การตั้งค่าอื่น ๆ เป็นค่าเริ่มต้นและเลือก ถัดไป.
สำหรับ ฮาร์ดแวร์ให้ใช้การตั้งค่าเริ่มต้น
Choose ถัดไป.
สำหรับ ชื่อคลัสเตอร์ป้อนชื่อ เราใช้ iceberg-blog-cluster.
ปล่อยให้การตั้งค่าที่เหลือไม่เปลี่ยนแปลงและเลือก ถัดไป.
Choose สร้างคลัสเตอร์.

สร้างสมุดบันทึกใน EMR Studio

ตอนนี้เราจะแนะนำวิธีการสร้างสมุดบันทึกใน EMR Studio จากคอนโซล

บนคอนโซล IAM สร้างบทบาทบริการ EMR Studio.
บนคอนโซล Amazon EMR ให้เลือก อีเอ็มอาร์ สตูดิโอ.
Choose สมัครที่นี่.

พื้นที่ สมัครที่นี่ หน้าปรากฏในแท็บใหม่

Choose สร้างสตูดิโอ ในแท็บใหม่
ป้อนชื่อ เราใช้ภูเขาน้ำแข็งสตูดิโอ
เลือก VPC และซับเน็ตเดียวกันกับคลัสเตอร์ EMR และกลุ่มความปลอดภัยเริ่มต้น
Choose AWS Identity และการจัดการการเข้าถึง (IAM) สำหรับการตรวจสอบสิทธิ์ และเลือกบทบาทบริการ EMR Studio ที่คุณเพิ่งสร้างขึ้น
เลือกเส้นทาง S3 สำหรับ การสำรองข้อมูลพื้นที่ทำงาน.
Choose สร้างสตูดิโอ.
หลังจากสร้าง Studio แล้ว ให้เลือก URL การเข้าถึง Studio
บนแดชบอร์ด EMR Studio เลือก สร้างพื้นที่ทำงาน.
ป้อนชื่อสำหรับพื้นที่ทำงานของคุณ เราใช้ iceberg-workspace.
แสดง การกำหนดค่าขั้นสูง และเลือก แนบพื้นที่ทำงานกับคลัสเตอร์ EMR.
เลือกคลัสเตอร์ EMR ที่คุณสร้างไว้ก่อนหน้านี้
Choose สร้างพื้นที่ทำงาน.
เลือกชื่อพื้นที่ทำงานเพื่อเปิดแท็บใหม่

ในบานหน้าต่างนำทาง มีสมุดบันทึกที่มีชื่อเดียวกับพื้นที่ทำงาน ในกรณีของเรา มันคือพื้นที่ทำงานบนภูเขาน้ำแข็ง

เปิดสมุดบันทึก
เมื่อได้รับแจ้งให้เลือกเคอร์เนล ให้เลือก จุดประกาย.

กำหนดค่าเซสชัน Spark สำหรับ Apache Iceberg

ใช้โค้ดต่อไปนี้ ระบุชื่อบัคเก็ต S3 ของคุณเอง:

%%configure -f
{ "conf": { "spark.sql.catalog.demo": "org.apache.iceberg.spark.SparkCatalog", "spark.sql.catalog.demo.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog", "spark.sql.catalog.demo.warehouse": "s3://iceberg-curated-blog-data", "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions", "spark.sql.catalog.demo.io-impl":"org.apache.iceberg.aws.s3.S3FileIO"
}
}

สิ่งนี้ตั้งค่าการกำหนดค่าเซสชัน Spark ต่อไปนี้:

spark.sql.catalog.demo – ลงทะเบียนแค็ตตาล็อก Spark ชื่อเดโม ซึ่งใช้ปลั๊กอินแคตตาล็อก Iceberg Spark
spark.sql.catalog.demo.catalog-impl – แค็ตตาล็อก Spark สาธิตใช้ AWS Glue เป็นแคตตาล็อกจริงเพื่อจัดเก็บฐานข้อมูล Iceberg และข้อมูลตาราง
spark.sql.catalog.demo.warehouse – แค็ตตาล็อก Spark สาธิตเก็บข้อมูลเมตาและไฟล์ข้อมูลของ Iceberg ทั้งหมดภายใต้เส้นทางรูทที่กำหนดโดยคุณสมบัตินี้: s3://iceberg-curated-blog-data.
spark.sql.ส่วนขยาย – เพิ่มการรองรับส่วนขยาย Iceberg Spark SQL ซึ่งอนุญาตให้คุณเรียกใช้ขั้นตอน Iceberg Spark และคำสั่ง SQL เฉพาะของ Iceberg เท่านั้น (คุณใช้คำสั่งนี้ในขั้นตอนต่อไป)
spark.sql.catalog.demo.io-impl – Iceberg ช่วยให้ผู้ใช้สามารถเขียนข้อมูลไปยัง Amazon S3 ผ่าน S3FileIO AWS Glue Data Catalog ใช้ FileIO นี้โดยค่าเริ่มต้น และแค็ตตาล็อกอื่นๆ สามารถโหลด FileIO นี้โดยใช้คุณสมบัติแคตตาล็อก io-impl

แปลงข้อมูลเป็นรูปแบบตารางภูเขาน้ำแข็ง

คุณสามารถใช้ Spark บน Amazon EMR หรือ Athena เพื่อโหลดตาราง Iceberg ในเซสชัน Spark ของโน้ตบุ๊ก EMR Studio Workspace ให้รันคำสั่งต่อไปนี้เพื่อโหลดข้อมูล:

// create a database in AWS Glue named reviews if not exist
spark.sql("CREATE DATABASE IF NOT EXISTS demo.reviews") // load reviews - this load all the parquet files
val reviews_all_location = "s3://amazon-reviews-pds/parquet/"
val reviews_all = spark.read.parquet(reviews_all_location) // write reviews data to an Iceberg v2 table
reviews_all.writeTo("demo.reviews.all_reviews").tableProperty("format-version", "2").createOrReplace()

หลังจากที่คุณรันโค้ด คุณควรพบคำนำหน้าสองรายการที่สร้างขึ้นในพาธ S3 ของคลังข้อมูลของคุณ (s3://iceberg-curated-blog-data/reviews.db/all_reviews): ข้อมูลและข้อมูลเมตา

ประมวลผลข้อมูลส่วนเพิ่มโดยใช้การแทรก อัพเดต และลบคำสั่ง SQL ใน Athena

Athena เป็นเครื่องมือสืบค้นแบบไร้เซิร์ฟเวอร์ที่คุณสามารถใช้เพื่อดำเนินการอ่าน เขียน อัปเดต และปรับให้เหมาะสมเทียบกับตาราง Iceberg เพื่อแสดงให้เห็นว่ารูปแบบ Data Lake ของ Apache Iceberg สนับสนุนการนำเข้าข้อมูลส่วนเพิ่มอย่างไร เราจึงเรียกใช้คำสั่งแทรก อัปเดต และลบ SQL บน Data Lake

ไปที่คอนโซล Athena แล้วเลือก ตัวแก้ไขแบบสอบถาม. หากนี่เป็นครั้งแรกที่คุณใช้ตัวแก้ไขแบบสอบถาม Athena คุณต้องทำ กำหนดค่าตำแหน่งผลลัพธ์ของแบบสอบถาม เป็นบัคเก็ต S3 ที่คุณสร้างไว้ก่อนหน้านี้ คุณควรจะเห็นว่าตาราง review.all_reviews พร้อมสำหรับการสอบถาม เรียกใช้แบบสอบถามต่อไปนี้เพื่อตรวจสอบว่าคุณโหลดตาราง Iceberg สำเร็จแล้ว:

select * from reviews.all_reviews limit 5;

ประมวลผลข้อมูลส่วนเพิ่มโดยการรันคำสั่งแทรก อัพเดต และลบ SQL:

//Example update statement
update reviews.all_reviews set star_rating=5 where product_category = 'Watches' and star_rating=4 //Example delete statement
delete from reviews.all_reviews where product_category = 'Watches' and star_rating=1

การปรับแต่งประสิทธิภาพ

ในส่วนนี้ เราจะแนะนำวิธีต่างๆ เพื่อปรับปรุงประสิทธิภาพการอ่านและเขียนของ Apache Iceberg

กำหนดค่าคุณสมบัติของตาราง Apache Iceberg

Apache Iceberg เป็นรูปแบบตาราง และสนับสนุนคุณสมบัติของตารางเพื่อกำหนดค่าลักษณะการทำงานของตาราง เช่น การอ่าน เขียน และแค็ตตาล็อก คุณสามารถปรับปรุงประสิทธิภาพการอ่านและเขียนบนตาราง Iceberg ได้โดยการปรับคุณสมบัติของตาราง

ตัวอย่างเช่น หากคุณสังเกตว่าคุณเขียนไฟล์ขนาดเล็กมากเกินไปสำหรับตาราง Iceberg คุณสามารถกำหนดค่าขนาดไฟล์เขียนให้เขียนไฟล์น้อยลงแต่มีขนาดใหญ่ขึ้น เพื่อช่วยปรับปรุงประสิทธิภาพการสืบค้น

อสังหาริมทรัพย์	ค่าเริ่มต้น	รายละเอียด
write.target-ขนาดไฟล์ไบต์	536870912 (512 MB)	ควบคุมขนาดของไฟล์ที่สร้างขึ้นเพื่อกำหนดเป้าหมายจำนวนไบต์นี้

ใช้รหัสต่อไปนี้เพื่อเปลี่ยนรูปแบบตาราง:

//Example code to alter table format in EMR Studio Workspace notebook
spark.sql("ALTER TABLE demo.reviews.all_reviews SET TBLPROPERTIES ('write_target_data_file_size_bytes'='536870912')")

การแบ่งพาร์ติชันและการเรียงลำดับ

ในการทำให้การสืบค้นทำงานเร็ว ยิ่งอ่านข้อมูลน้อยยิ่งดี Iceberg ใช้ประโยชน์จากข้อมูลเมตามากมายที่บันทึกในขณะเขียนและอำนวยความสะดวกในเทคนิคต่างๆ เช่น การวางแผนการสแกน การแบ่งพาร์ติชัน การตัด และสถิติระดับคอลัมน์ เช่น ค่าต่ำสุด/สูงสุด เพื่อข้ามไฟล์ข้อมูลที่ไม่มีบันทึกที่ตรงกัน เราจะแนะนำวิธีการวางแผนการสแกนแบบสอบถามและการแบ่งพาร์ติชันใน Iceberg และวิธีที่เราใช้เพื่อปรับปรุงประสิทธิภาพการค้นหา

การวางแผนการสแกนแบบสอบถาม

สำหรับข้อความค้นหาที่กำหนด ขั้นตอนแรกในเครื่องมือสืบค้นข้อมูลคือการวางแผนการสแกน ซึ่งเป็นกระบวนการค้นหาไฟล์ในตารางที่จำเป็นสำหรับแบบสอบถาม การวางแผนในตาราง Iceberg มีประสิทธิภาพมาก เนื่องจากข้อมูลเมตาที่สมบูรณ์ของ Iceberg สามารถใช้เพื่อตัดไฟล์ข้อมูลเมตาที่ไม่จำเป็น นอกเหนือจากการกรองไฟล์ข้อมูลที่ไม่มีข้อมูลที่ตรงกัน ในการทดสอบของเรา เราสังเกตว่า Athena สแกนข้อมูล 50% หรือน้อยกว่าสำหรับข้อความค้นหาที่ระบุในตาราง Iceberg เปรียบเทียบกับข้อมูลต้นฉบับก่อนแปลงเป็นรูปแบบ Iceberg

การกรองมีสองประเภท:

การกรองข้อมูลเมตา – Iceberg ใช้ข้อมูลเมตาสองระดับเพื่อติดตามไฟล์ในภาพรวม: รายการรายการและไฟล์รายการ ก่อนอื่นจะใช้รายการรายการซึ่งทำหน้าที่เป็นดัชนีของไฟล์รายการ ในระหว่างการวางแผน Iceberg จะกรองรายการโดยใช้ช่วงค่าพาร์ติชันในรายการรายการโดยไม่อ่านไฟล์รายการทั้งหมด จากนั้นจะใช้ไฟล์รายการที่เลือกเพื่อรับไฟล์ข้อมูล
การกรองข้อมูล – หลังจากเลือกรายการไฟล์รายการแล้ว Iceberg จะใช้ข้อมูลพาร์ติชันและสถิติระดับคอลัมน์สำหรับไฟล์ข้อมูลแต่ละไฟล์ที่จัดเก็บไว้ในไฟล์รายการเพื่อกรองไฟล์ข้อมูล ในระหว่างการวางแผน เพรดิเคตเคียวรีจะถูกแปลงเป็นเพรดิเคตบนข้อมูลพาร์ติชัน และนำไปใช้ก่อนเพื่อกรองไฟล์ข้อมูล จากนั้น สถิติของคอลัมน์ เช่น การนับค่าระดับคอลัมน์ การนับ Null ขอบเขตล่าง และขอบเขตบนจะถูกใช้เพื่อกรองไฟล์ข้อมูลที่ไม่ตรงกับเพรดิเคตคิวรี ด้วยการใช้ขอบเขตบนและล่างเพื่อกรองไฟล์ข้อมูลในเวลาวางแผน Iceberg ปรับปรุงประสิทธิภาพการสืบค้นอย่างมาก

การแบ่งพาร์ติชันและการเรียงลำดับ

การแบ่งพาร์ติชันเป็นวิธีการจัดกลุ่มระเบียนที่มีค่าคอลัมน์หลักเดียวกันไว้ด้วยกันเป็นลายลักษณ์อักษร ประโยชน์ของการแบ่งพาร์ติชันคือการสืบค้นที่รวดเร็วขึ้นซึ่งเข้าถึงข้อมูลเพียงบางส่วน ตามที่อธิบายไว้ก่อนหน้านี้ในการวางแผนการสแกนแบบสอบถาม: การกรองข้อมูล Iceberg ทำให้การแบ่งพาร์ติชันเป็นเรื่องง่ายโดยรองรับการแบ่งพาร์ติชันแบบซ่อน ในลักษณะที่ Iceberg สร้างค่าของพาร์ติชันโดยรับค่าคอลัมน์และแปลงทางเลือก

ในกรณีการใช้งานของเรา อันดับแรก เราเรียกใช้การสืบค้นต่อไปนี้บนตาราง Iceberg ที่ไม่ได้แบ่งพาร์ติชัน จากนั้นเราจะแบ่งตาราง Iceberg ตามหมวดหมู่ของบทวิจารณ์ ซึ่งจะใช้ในเงื่อนไขการค้นหา WHERE เพื่อกรองข้อมูลออก ด้วยการแบ่งพาร์ติชัน แบบสอบถามสามารถสแกนข้อมูลน้อยลงมาก ดูรหัสต่อไปนี้:

//Example code in EMR Studio Workspace notebook to create an Iceberg table all_reviews_partitioned partitioned by product_category
reviews_all.writeTo("demo.reviews.all_reviews_partitioned").tableProperty("format-version", "2").partitionedBy($"product_category").createOrReplace()

รันคำสั่ง select ต่อไปนี้บนตาราง all_reviews ที่ไม่ได้แบ่งพาร์ติชันเทียบกับตารางที่แบ่งพาร์ติชันเพื่อดูความแตกต่างของประสิทธิภาพ:

//Run this query on all_reviews table and the partitioned table for performance testing
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews where product_category = 'Watches' and review_date between date('2005-01-01') and date('2005-03-31') //Run the same select query on partitioned dataset
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews_partitioned where product_category = 'Watches' and review_date between date('2005-01-01') and date('2005-03-31')

ตารางต่อไปนี้แสดงการปรับปรุงประสิทธิภาพของการแบ่งพาร์ติชันข้อมูล โดยมีการปรับปรุงประสิทธิภาพประมาณ 50% และสแกนข้อมูลน้อยลง 70%

ชื่อชุดข้อมูล	ชุดข้อมูลที่ไม่แบ่งพาร์ติชัน	ชุดข้อมูลที่แบ่งพาร์ติชัน
รันไทม์ (วินาที)	8.20	4.25
ข้อมูลที่สแกน (MB)	131.55	33.79

โปรดทราบว่ารันไทม์คือรันไทม์เฉลี่ยที่มีการรันหลายครั้งในการทดสอบของเรา

เราเห็นการปรับปรุงประสิทธิภาพที่ดีหลังจากการแบ่งพาร์ติชัน อย่างไรก็ตาม สามารถปรับปรุงเพิ่มเติมได้โดยใช้สถิติระดับคอลัมน์จากไฟล์รายการ Iceberg เพื่อใช้สถิติระดับคอลัมน์อย่างมีประสิทธิภาพ คุณต้องการจัดเรียงบันทึกเพิ่มเติมตามรูปแบบการสืบค้น การเรียงลำดับชุดข้อมูลทั้งหมดโดยใช้คอลัมน์ที่มักใช้ในการสืบค้นจะจัดลำดับข้อมูลใหม่ในลักษณะที่แต่ละไฟล์ข้อมูลจบลงด้วยช่วงค่าเฉพาะสำหรับคอลัมน์เฉพาะ หากใช้คอลัมน์เหล่านี้ในเงื่อนไขการสืบค้น จะช่วยให้เอ็นจินการสืบค้นสามารถข้ามไฟล์ข้อมูลได้มากขึ้น ซึ่งจะทำให้การสืบค้นรวดเร็วยิ่งขึ้น

Copy-on-write เทียบกับ Read-on-Merge

เมื่อใช้การอัปเดตและลบบนตาราง Iceberg ใน Data Lake มีสองวิธีที่กำหนดโดยคุณสมบัติของตาราง Iceberg:

คัดลอกบนเขียน – ด้วยแนวทางนี้ เมื่อมีการเปลี่ยนแปลงในตาราง Iceberg ไม่ว่าจะอัปเดตหรือลบ ไฟล์ข้อมูลที่เกี่ยวข้องกับบันทึกที่ได้รับผลกระทบจะถูกทำซ้ำและอัปเดต บันทึกจะถูกปรับปรุงหรือลบออกจากไฟล์ข้อมูลที่ทำซ้ำ สแน็ปช็อตใหม่ของตารางภูเขาน้ำแข็งจะถูกสร้างขึ้นและชี้ไปยังไฟล์ข้อมูลเวอร์ชันที่ใหม่กว่า ทำให้การเขียนโดยรวมช้าลง อาจมีบางสถานการณ์ที่จำเป็นต้องเขียนพร้อมกันโดยมีข้อขัดแย้ง จึงต้องลองใหม่อีกครั้ง ซึ่งจะเพิ่มเวลาในการเขียนมากยิ่งขึ้น ในทางกลับกัน เมื่ออ่านข้อมูล ไม่จำเป็นต้องมีกระบวนการเพิ่มเติม แบบสอบถามจะดึงข้อมูลจากไฟล์ข้อมูลเวอร์ชันล่าสุด
ผสานเมื่ออ่าน – ด้วยวิธีนี้ เมื่อมีการอัปเดตหรือลบในตาราง Iceberg ไฟล์ข้อมูลที่มีอยู่จะไม่ถูกเขียนใหม่ ไฟล์ลบใหม่จะถูกสร้างขึ้นแทนเพื่อติดตามการเปลี่ยนแปลง สำหรับการลบ ไฟล์ลบใหม่จะถูกสร้างขึ้นพร้อมกับบันทึกที่ถูกลบ เมื่ออ่านตารางภูเขาน้ำแข็ง ไฟล์ลบจะถูกนำไปใช้กับข้อมูลที่เรียกมาเพื่อกรองบันทึกการลบออก สำหรับการอัปเดต ไฟล์ลบใหม่จะถูกสร้างขึ้นเพื่อทำเครื่องหมายบันทึกที่อัปเดตว่าลบแล้ว จากนั้นไฟล์ใหม่จะถูกสร้างขึ้นสำหรับเรกคอร์ดเหล่านั้น แต่มีค่าที่อัปเดต เมื่ออ่านตาราง Iceberg ทั้งไฟล์ที่ลบและไฟล์ใหม่จะถูกนำไปใช้กับข้อมูลที่ดึงมาเพื่อแสดงการเปลี่ยนแปลงล่าสุดและให้ผลลัพธ์ที่ถูกต้อง ดังนั้น สำหรับการสืบค้นที่ตามมา ขั้นตอนพิเศษในการรวมไฟล์ข้อมูลกับการลบและไฟล์ใหม่จะเกิดขึ้น ซึ่งโดยปกติจะเพิ่มเวลาการสืบค้น ในทางกลับกัน การเขียนอาจเร็วกว่าเนื่องจากไม่จำเป็นต้องเขียนไฟล์ข้อมูลที่มีอยู่ใหม่

เมื่อต้องการทดสอบผลกระทบของทั้งสองวิธี คุณสามารถรันโค้ดต่อไปนี้เพื่อตั้งค่าคุณสมบัติของตาราง Iceberg:

//Run code to alter Iceberg table property to set copy-on-write and merge-on-read in EMR Studio Workspace notebook
spark.sql(“ALTER TABLE demo.reviews.all_reviews SET TBLPROPERTIES (‘write.delete.mode’=’copy-on-write’,’write.update.mode’=’copy-on-write’)”)

เรียกใช้การอัปเดต ลบ และเลือกคำสั่ง SQL ใน Athena เพื่อแสดงความแตกต่างของรันไทม์สำหรับ copy-on-write เทียบกับการผสานเมื่ออ่าน:

//Example update statement
update reviews.all_reviews set star_rating=5 where product_category = ‘Watches’ and star_rating=4 //Example delete statement
delete from reviews.all_reviews where product_category = ‘Watches’ and star_rating=1 //Example select statement
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews where product_category = ‘Watches’ and review_date between date(‘2005-01-01’) and date(‘2005-03-31’)

ตารางต่อไปนี้สรุปรันไทม์ของคิวรี

สอบถาม	คัดลอกเมื่อเขียน			ผสานเมื่ออ่าน
สอบถาม	อัพเดท	ลบ	SELECT	อัพเดท	ลบ	SELECT
รันไทม์ (วินาที)	66.251	116.174	97.75	10.788	54.941	113.44
ข้อมูลที่สแกน (MB)	494.06	3.07	137.16	494.06	3.07	137.16

ดังที่ผลการทดสอบของเราแสดงให้เห็น มีการแลกเปลี่ยนเสมอในสองวิธี วิธีการใช้ขึ้นอยู่กับกรณีการใช้งานของคุณ โดยสรุป การพิจารณาลงมาที่เวลาแฝงในการอ่านและเขียน คุณสามารถอ้างอิงตารางต่อไปนี้และเลือกสิ่งที่ถูกต้องได้

.	คัดลอกเมื่อเขียน	ผสานเมื่ออ่าน
ข้อดี	อ่านได้เร็วขึ้น	เขียนได้เร็วขึ้น
จุดด้อย	เขียนราคาแพง	เวลาแฝงที่สูงขึ้นในการอ่าน
ควรใช้เมื่อไร	เหมาะสำหรับการอ่านบ่อยๆ การอัปเดตและการลบไม่บ่อย หรือการอัปเดตแบบกลุ่มใหญ่	เหมาะสำหรับตารางที่มีการอัปเดตและลบบ่อย

การบีบอัดข้อมูล

หากไฟล์ข้อมูลของคุณมีขนาดเล็ก คุณอาจมีไฟล์เป็นพันหรือล้านไฟล์ในตาราง Iceberg สิ่งนี้จะเพิ่มการดำเนินการ I/O อย่างมากและทำให้การสืบค้นช้าลง นอกจากนี้ Iceberg ยังติดตามไฟล์ข้อมูลแต่ละไฟล์ในชุดข้อมูล ไฟล์ข้อมูลเพิ่มเติมนำไปสู่ข้อมูลเมตาที่มากขึ้น สิ่งนี้จะเพิ่มค่าใช้จ่ายและการดำเนินการ I/O ในการอ่านไฟล์ข้อมูลเมตา เพื่อปรับปรุงประสิทธิภาพคิวรี ขอแนะนำให้กระชับไฟล์ข้อมูลขนาดเล็กให้เป็นไฟล์ข้อมูลขนาดใหญ่

เมื่ออัปเดตและลบบันทึกในตาราง Iceberg หากใช้วิธีอ่าน-ผสาน คุณอาจจบลงด้วยการลบขนาดเล็กจำนวนมากหรือไฟล์ข้อมูลใหม่ การรันการบีบอัดจะรวมไฟล์ทั้งหมดเหล่านี้และสร้างไฟล์ข้อมูลเวอร์ชันใหม่กว่า สิ่งนี้ทำให้ไม่จำเป็นต้องกระทบยอดระหว่างการอ่าน ขอแนะนำให้มีงานบีบอัดเป็นประจำเพื่อให้ส่งผลกระทบต่อการอ่านน้อยที่สุดในขณะที่ยังคงรักษาความเร็วในการเขียนให้เร็วขึ้น

เรียกใช้คำสั่งบีบอัดข้อมูลต่อไปนี้ จากนั้นเรียกใช้คิวรีแบบเลือกจาก Athena:

//Data compaction optimize reviews.all_reviews REWRITE DATA USING BIN_PACK //Run this query before and after data compaction
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews where product_category = 'Watches' and review_date between date('2005-01-01') and date('2005-03-31')

ตารางต่อไปนี้เปรียบเทียบรันไทม์ก่อนและหลังการบีบอัดข้อมูล คุณสามารถเห็นการปรับปรุงประสิทธิภาพประมาณ 40%

สอบถาม	ก่อนการกระชับข้อมูล	หลังจากการกระชับข้อมูล
รันไทม์ (วินาที)	97.75	วินาที 32.676
ข้อมูลที่สแกน (MB)	M 137.16	M 189.19

โปรดทราบว่าแบบสอบถามแบบใช้เลือกทำงานบน all_reviews ตารางหลังการดำเนินการอัปเดตและลบ ก่อนและหลังการบีบอัดข้อมูล รันไทม์คือรันไทม์เฉลี่ยที่มีการรันหลายครั้งในการทดสอบของเรา

ทำความสะอาด

หลังจากที่คุณทำตามคำแนะนำการแก้ปัญหาเพื่อดำเนินการตามกรณีการใช้งาน ให้ทำตามขั้นตอนต่อไปนี้เพื่อล้างทรัพยากรของคุณและหลีกเลี่ยงค่าใช้จ่ายเพิ่มเติม:

วางตารางและฐานข้อมูล AWS Glue จาก Athena หรือเรียกใช้โค้ดต่อไปนี้ในสมุดบันทึกของคุณ:

// DROP the table spark.sql("DROP TABLE demo.reviews.all_reviews") spark.sql("DROP TABLE demo.reviews.all_reviews_partitioned") // DROP the database spark.sql("DROP DATABASE demo.reviews")

บนคอนโซล EMR Studio เลือก พื้นที่ทำงาน ในบานหน้าต่างนำทาง
เลือกพื้นที่ทำงานที่คุณสร้างขึ้นและเลือก ลบ.
บนคอนโซล EMR ให้ไปที่ สตูดิโอ หน้า.
เลือกสตูดิโอที่คุณสร้างแล้วเลือก ลบ.
บนคอนโซล EMR เลือก เครือข่ายวิสาหกิจ ในบานหน้าต่างนำทาง
เลือกคลัสเตอร์และเลือก ยุติ.
ลบบัคเก็ต S3 และทรัพยากรอื่นๆ ที่คุณสร้างขึ้นโดยเป็นส่วนหนึ่งของข้อกำหนดเบื้องต้นสำหรับโพสต์นี้

สรุป

ในโพสต์นี้ เราแนะนำเฟรมเวิร์ก Apache Iceberg และวิธีที่ช่วยแก้ไขความท้าทายบางอย่างที่เรามีใน Data Lake สมัยใหม่ จากนั้นเราจะแนะนำวิธีแก้ปัญหาในการประมวลผลข้อมูลส่วนเพิ่มใน Data Lake โดยใช้ Apache Iceberg สุดท้าย เราได้เจาะลึกเกี่ยวกับการปรับแต่งประสิทธิภาพเพื่อปรับปรุงประสิทธิภาพการอ่านและเขียนสำหรับกรณีการใช้งานของเรา

เราหวังว่าโพสต์นี้จะให้ข้อมูลที่เป็นประโยชน์สำหรับคุณในการตัดสินใจว่าคุณต้องการนำ Apache Iceberg มาใช้ในโซลูชัน Data Lake ของคุณหรือไม่

เกี่ยวกับผู้เขียน

ฟลอร่า วู เป็น Sr. Resident Architect ที่ AWS Data Lab เธอช่วยลูกค้าองค์กรสร้างกลยุทธ์การวิเคราะห์ข้อมูลและสร้างโซลูชันเพื่อเร่งผลลัพธ์ทางธุรกิจของพวกเขา ในเวลาว่าง เธอชอบเล่นเทนนิส เต้นซัลซ่า และท่องเที่ยว

แดเนียลลี่ เป็น Sr. Solutions Architect ที่ Amazon Web Services เขามุ่งเน้นที่การช่วยเหลือลูกค้าในการพัฒนา ปรับใช้ และปรับใช้บริการและกลยุทธ์ระบบคลาวด์ เมื่อไม่ได้ทำงาน เขาชอบใช้เวลานอกบ้านกับครอบครัว

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/big-data/use-apache-iceberg-in-a-data-lake-to-support-incremental-data-processing/

ประทับเวลา: March 2, 2023

ประทับเวลา: May 17, 2023

ใช้ Apache Iceberg ใน Data Lake เพื่อรองรับการประมวลผลข้อมูลส่วนเพิ่ม

เผยแพร่ซ้ำโดยเพลโต

Apache Iceberg จัดการกับสิ่งที่ลูกค้าต้องการใน Data Lake สมัยใหม่ได้อย่างไร

ภาพรวมโซลูชัน

เบื้องต้น

ตั้งค่าบัคเก็ต S3 สำหรับข้อมูล Iceberg ในโซนที่ดูแลจัดการในที่จัดเก็บข้อมูลดิบของคุณ

เปิดใช้คลัสเตอร์ EMR เพื่อเรียกใช้งาน Iceberg โดยใช้ Spark

สร้างสมุดบันทึกใน EMR Studio

กำหนดค่าเซสชัน Spark สำหรับ Apache Iceberg

แปลงข้อมูลเป็นรูปแบบตารางภูเขาน้ำแข็ง

ประมวลผลข้อมูลส่วนเพิ่มโดยใช้การแทรก อัพเดต และลบคำสั่ง SQL ใน Athena

การปรับแต่งประสิทธิภาพ

กำหนดค่าคุณสมบัติของตาราง Apache Iceberg

การแบ่งพาร์ติชันและการเรียงลำดับ

การวางแผนการสแกนแบบสอบถาม

การแบ่งพาร์ติชันและการเรียงลำดับ

Copy-on-write เทียบกับ Read-on-Merge

การบีบอัดข้อมูล

ทำความสะอาด

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS ข้อมูลขนาดใหญ่

การประกาศเลนส์วิเคราะห์ข้อมูล AWS Well-Architected อเมซอนเว็บเซอร์วิส

ส่ง Amazon CloudWatch Logs ที่คลายการบีบอัดไปยัง Amazon S3 และ Splunk โดยใช้ Amazon Data Firehose | อเมซอนเว็บเซอร์วิส

สตรีมข้อมูลด้วย Amazon MSK Connect โดยใช้ตัวเชื่อมต่อ JDBC แบบโอเพ่นซอร์ส | บริการเว็บอเมซอน

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้