データレイクで Apache Iceberg を使用して増分データ処理をサポートする

プラトン再発行

フォロワー： 0

アパッチ氷山は、非常に大規模な分析データセット用のオープンテーブル形式であり、データセットの状態に関するメタデータ情報を、データセットが時間の経過とともに進化および変化するにつれてキャプチャします。 SQL テーブルと同様に機能する高性能テーブル形式を使用して、Spark、Trino、PrestoDB、Flink、Hive などのコンピューティングエンジンにテーブルを追加します。 Iceberg は、データレイクでの ACID トランザクションのサポートと、スキーマとパーティションの進化、タイムトラベル、ロールバックなどの機能で非常に人気があります。

Apache Iceberg の統合は、以下を含む AWS 分析サービスによってサポートされています。アマゾンEMR, アマゾンアテナ, AWSグルー. Amazon EMR は、Iceberg を実行できる Spark、Hive、Trino、および Flink を使用してクラスターをプロビジョニングできます。 Amazon EMR バージョン 6.5.0 以降では、次のことができます。 EMR クラスターで Iceberg を使用するブートストラップアクションを必要とせずに。 2022 年初頭、AWS は Apache Iceberg を利用した Athena ACID トランザクションの一般提供を発表しました。最近リリースされた Athena クエリエンジンバージョン 3 Iceberg テーブル形式とのより良い統合を提供します。 AWS Glue 3.0 以降 Apache Iceberg フレームワークをサポートデータレイク用。

この投稿では、お客様が最新のデータレイクに何を求めているか、および Apache Iceberg がお客様のニーズに対応するのにどのように役立つかについて説明します。次に、高性能で進化する Iceberg データレイクを構築するためのソリューションについて説明します。 Amazon シンプルストレージサービス (Amazon S3) を挿入し、SQL ステートメントの挿入、更新、および削除を実行して増分データを処理します。最後に、プロセスのパフォーマンスを調整して読み取りと書き込みのパフォーマンスを向上させる方法を示します。

Apache Iceberg が最新のデータレイクで顧客が求めるものにどのように対処するか

多くのユーザー、アプリケーション、および分析ツールをサポートするために、構造化データと非構造化データを使用してデータレイクを構築するお客様がますます増えています。 ACID トランザクション、レコードレベルの更新と削除、タイムトラベル、ロールバックなどのデータベースのような機能をサポートするデータレイクの必要性が高まっています。 Apache Iceberg は、Amazon S3 の費用対効果の高いペタバイト規模のデータレイクでこれらの機能をサポートするように設計されています。

Apache Iceberg は、個々のデータファイルの作成時にデータセットに関する豊富なメタデータ情報を取得することで、顧客のニーズに対応します。次の図に示すように、Iceberg テーブルのアーキテクチャには、Iceberg カタログ、メタデータレイヤー、およびデータレイヤーの XNUMX つのレイヤーがあります (source).

Iceberg カタログには、現在のテーブルメタデータファイルへのメタデータポインターが格納されます。選択クエリが Iceberg テーブルを読み取る場合、クエリエンジンは最初に Iceberg カタログに移動し、次に現在のメタデータファイルの場所を取得します。 Iceberg テーブルが更新されるたびに、テーブルの新しいスナップショットが作成され、メタデータポインターは現在のテーブルメタデータファイルを指します。

以下は、AWS Glue を実装した Iceberg カタログの例です。データベース名、Iceberg テーブルの場所 (S3 パス)、およびメタデータの場所を確認できます。

メタデータレイヤーには、階層内のメタデータファイル、マニフェストリスト、マニフェストファイルの XNUMX 種類のファイルがあります。階層の最上位にあるのは、テーブルのスキーマ、パーティション情報、およびスナップショットに関する情報を格納するメタデータファイルです。スナップショットは、マニフェストリストを指します。マニフェストリストには、マニフェストファイルの場所、マニフェストファイルが属するパーティション、追跡するデータファイルのパーティション列の下限と上限など、スナップショットを構成する各マニフェストファイルに関する情報が含まれています。マニフェストファイルは、データファイルと、ファイル形式などの各ファイルに関する追加の詳細を追跡します。 XNUMX つのファイルはすべて階層内で機能し、Iceberg テーブル内のスナップショット、スキーマ、パーティション分割、プロパティ、およびデータファイルを追跡します。

データ層には、アイスバーグテーブルの個々のデータファイルがあります。 Iceberg は、Parquet、ORC、Avro など、幅広いファイル形式をサポートしています。 Iceberg テーブルは、データファイルでパーティションの場所を指すだけでなく、個々のデータファイルを追跡するため、書き込み操作と読み取り操作を分離します。データファイルはいつでも書き込むことができますが、変更を明示的にコミットするだけで、新しいバージョンのスナップショットとメタデータファイルが作成されます。

ソリューションの概要

この投稿では、Amazon S3 で高性能の Apache Iceberg データレイクを構築するためのソリューションについて説明します。挿入、更新、および削除 SQL ステートメントを使用して増分データを処理します。 Iceberg テーブルを調整して、読み取りと書き込みのパフォーマンスを向上させます。次の図は、ソリューションアーキテクチャを示しています。

このソリューションを実証するために、アマゾンのカスタマーレビュー S3 バケット内のデータセット (s3://amazon-reviews-pds/parquet/）。実際のユースケースでは、S3 バケットに保存された生データになります。次のコードでデータサイズを確認できます AWSコマンドラインインターフェイス（AWS CLI）：

//Run this AWS CLI command to check the data size
aws s3 ls --summarize --human-readable --recursive s3://amazon-reviews-pds/parquet

合計オブジェクト数は 430 で、合計サイズは 47.4 GiB です。

このソリューションをセットアップしてテストするには、次の高レベルの手順を実行します。

キュレートされたゾーンに S3 バケットをセットアップして、変換されたデータを Iceberg テーブル形式で保存します。
Apache Iceberg の適切な構成で EMR クラスターを起動します。
EMR Studio でノートブックを作成します。
Apache Iceberg の Spark セッションを構成します。
データを Iceberg テーブル形式に変換し、データをキュレーションゾーンに移動します。
Athena で挿入、更新、および削除クエリを実行して、増分データを処理します。
パフォーマンスチューニングを実行します。

前提条件

このチュートリアルを進めるには、 AWSアカウントとともに AWS IDおよびアクセス管理必要なリソースをプロビジョニングするための十分なアクセス権を持つ (IAM) ロール。

データレイクのキュレートされたゾーンに Iceberg データ用の S3 バケットを設定する

S3 バケットを作成するリージョンを選択し、一意の名前を付けます。

s3://iceberg-curated-blog-data

EMR クラスターを起動して、Spark を使用して Iceberg ジョブを実行する

から EMR クラスターを作成できます。 AWSマネジメントコンソール、Amazon EMR CLI、または AWSクラウド開発キット (AWS CDK)。この投稿では、コンソールから EMR クラスターを作成する方法について説明します。

Amazon EMRコンソールで、 クラスターを作成する.
選択する 詳細オプション.
ソフトウェア構成で、最新の Amazon EMR リリースを選択します。 2023 年 6.9.0 月現在、最新リリースは 6.5.0 です。 Iceberg には、リリース XNUMX 以降が必要です。
選択 ジュピターエンタープライズゲートウェイ & スパーク インストールするソフトウェアとして。
ソフトウェア設定の編集選択 構成を入力してください 入力してください [{"classification":"iceberg-defaults","properties":{"iceberg.enabled":true}}].
他の設定はデフォルトのままにして、 Next.
Hardware、デフォルト設定を使用します。
選択する Next.
クラスター名、名前を入力します。を使用しております iceberg-blog-cluster.
残りの設定は変更せずに、 Next.
選択する クラスターを作成する.

EMR Studio でノートブックを作成する

コンソールから EMR Studio でノートブックを作成する方法について説明します。

IAMコンソールで、 EMR Studio サービスロールを作成する.
Amazon EMRコンソールで、 EMR スタジオ.
選択する 始める.

　 始める ページが新しいタブに表示されます。

選択する スタジオを作成 新しいタブで。
名前を入力します。アイスバーグスタジオを使用しています。
EMR クラスターと同じ VPC とサブネット、およびデフォルトのセキュリティグループを選択します。
選択する AWS Identity and Access Management（IAM） 認証のために、作成したばかりの EMR Studio サービスロールを選択します。
の S3 パスを選択します ワークスペースのバックアップ.
選択する スタジオを作成.
Studio が作成されたら、Studio アクセス URL を選択します。
EMR Studio ダッシュボードで、 ワークスペースを作成する.
ワークスペースの名前を入力します。を使用しております iceberg-workspace.
詳細 高度な設定 選択して Workspace を EMR クラスターにアタッチする.
前に作成した EMR クラスターを選択します。
選択する ワークスペースを作成する.
ワークスペース名を選択して、新しいタブを開きます。

ナビゲーションウィンドウに、ワークスペースと同じ名前のノートブックがあります。私たちの場合、それは iceberg-workspace です。

ノートブックを開きます。
カーネルを選択するように求められたら、選択します スパーク.

Apache Iceberg の Spark セッションを構成する

次のコードを使用して、独自の S3 バケット名を指定します。

%%configure -f
{ "conf": { "spark.sql.catalog.demo": "org.apache.iceberg.spark.SparkCatalog", "spark.sql.catalog.demo.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog", "spark.sql.catalog.demo.warehouse": "s3://iceberg-curated-blog-data", "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions", "spark.sql.catalog.demo.io-impl":"org.apache.iceberg.aws.s3.S3FileIO"
}
}

これにより、次のSparkセッション構成が設定されます。

スパーク.sql.カタログ.デモ – Iceberg Spark カタログプラグインを使用する demo という名前の Spark カタログを登録します。
スパーク.sql.catalog.demo.catalog-impl – デモ Spark カタログは、AWS Glue を物理カタログとして使用して、Iceberg データベースとテーブル情報を保存します。
スパーク.sql.カタログ.デモ.ウェアハウス – デモ Spark カタログは、すべての Iceberg メタデータとデータファイルを、このプロパティで定義されたルートパスに格納します。 s3://iceberg-curated-blog-data.
スパーク.sql.extensions – Iceberg Spark SQL 拡張機能のサポートを追加します。これにより、Iceberg Spark プロシージャーおよび一部の Iceberg 専用 SQL コマンドを実行できます (これは後のステップで使用します)。
スパーク.sql.catalog.demo.io-impl – Iceberg では、ユーザーは S3FileIO を介して Amazon S3 にデータを書き込むことができます。 AWS Glue データカタログはデフォルトでこの FileIO を使用し、他のカタログは io-impl カタログプロパティを使用してこの FileIO をロードできます。

データを Iceberg テーブル形式に変換する

Amazon EMR の Spark または Athena のいずれかを使用して、Iceberg テーブルをロードできます。 EMR Studio ワークスペースノートブックの Spark セッションで、次のコマンドを実行してデータを読み込みます。

// create a database in AWS Glue named reviews if not exist
spark.sql("CREATE DATABASE IF NOT EXISTS demo.reviews") // load reviews - this load all the parquet files
val reviews_all_location = "s3://amazon-reviews-pds/parquet/"
val reviews_all = spark.read.parquet(reviews_all_location) // write reviews data to an Iceberg v2 table
reviews_all.writeTo("demo.reviews.all_reviews").tableProperty("format-version", "2").createOrReplace()

コードを実行すると、データウェアハウスの S3 パスに作成された XNUMX つのプレフィックス (s3://iceberg-curated-blog-data/reviews.db/all_reviews): データとメタデータ。

Athena で SQL ステートメントの挿入、更新、削除を使用して増分データを処理する

Athena は、Iceberg テーブルに対して読み取り、書き込み、更新、および最適化タスクを実行するために使用できるサーバーレスクエリエンジンです。 Apache Iceberg データレイク形式が増分データインジェストをサポートする方法を示すために、データレイクで SQL ステートメントの挿入、更新、および削除を実行します。

Athenaコンソールに移動し、 クエリエディタ. 初めて Athena クエリエディターを使用する場合は、次のことを行う必要があります。クエリ結果の場所を構成する前に作成した S3 バケットになります。テーブル reviews.all_reviews がクエリに使用できることを確認できるはずです。次のクエリを実行して、Iceberg テーブルが正常に読み込まれたことを確認します。

select * from reviews.all_reviews limit 5;

挿入、更新、および削除の SQL ステートメントを実行して、増分データを処理します。

//Example update statement
update reviews.all_reviews set star_rating=5 where product_category = 'Watches' and star_rating=4 //Example delete statement
delete from reviews.all_reviews where product_category = 'Watches' and star_rating=1

パフォーマンスチューニング

このセクションでは、Apache Iceberg の読み取りと書き込みのパフォーマンスを向上させるさまざまな方法について説明します。

Apache Iceberg テーブルのプロパティを構成する

Apache Iceberg はテーブル形式であり、読み取り、書き込み、カタログなどのテーブルの動作を構成するテーブルプロパティをサポートしています。テーブルのプロパティを調整することで、Iceberg テーブルの読み取りおよび書き込みのパフォーマンスを向上させることができます。

たとえば、Iceberg テーブルに対して小さなファイルを書きすぎることに気付いた場合は、書き込みファイルサイズを構成して、より少ないが大きなサイズのファイルを書き込むようにすると、クエリのパフォーマンスが向上します。

プロパティ	デフォルト	説明
write.ターゲットファイルサイズバイト	536870912（512 MB）	このバイト数についてターゲットに生成されるファイルのサイズを制御します

テーブル形式を変更するには、次のコードを使用します。

//Example code to alter table format in EMR Studio Workspace notebook
spark.sql("ALTER TABLE demo.reviews.all_reviews SET TBLPROPERTIES ('write_target_data_file_size_bytes'='536870912')")

パーティショニングとソート

クエリを高速に実行するには、読み取るデータが少ないほど効果的です。 Iceberg は、書き込み時にキャプチャする豊富なメタデータを利用して、スキャン計画、パーティショニング、プルーニング、最小/最大値などの列レベルの統計などの手法を促進し、一致するレコードがないデータファイルをスキップします。 Iceberg でクエリスキャンの計画とパーティショニングがどのように機能するか、およびそれらを使用してクエリのパフォーマンスを向上させる方法について説明します。

クエリスキャンの計画

特定のクエリの場合、クエリエンジンの最初のステップはスキャン計画です。これは、クエリに必要なテーブル内のファイルを見つけるプロセスです。 Iceberg の豊富なメタデータを使用して、一致するデータを含まないデータファイルをフィルタリングするだけでなく、不要なメタデータファイルを削除できるため、Iceberg テーブルでの計画は非常に効率的です。テストでは、Iceberg 形式に変換する前の元のデータと比較して、Athena が Iceberg テーブルの特定のクエリに対して 50% 以下のデータをスキャンしたことを確認しました。

フィルタリングには次の XNUMX 種類があります。

メタデータのフィルタリング – Iceberg は、マニフェストリストとマニフェストファイルの XNUMX つのレベルのメタデータを使用して、スナップショット内のファイルを追跡します。まず、マニフェストファイルのインデックスとして機能するマニフェストリストを使用します。計画中、Iceberg はすべてのマニフェストファイルを読み取ることなく、マニフェストリストのパーティション値の範囲を使用してマニフェストをフィルター処理します。次に、選択したマニフェストファイルを使用してデータファイルを取得します。
データフィルタリング – マニフェストファイルのリストを選択した後、Iceberg は、マニフェストファイルに格納されている各データファイルのパーティションデータと列レベルの統計情報を使用して、データファイルをフィルター処理します。計画中に、クエリ述語はパーティションデータの述語に変換され、最初にデータファイルをフィルター処理するために適用されます。次に、列レベルの値のカウント、null カウント、下限、上限などの列統計を使用して、クエリ述語に一致しないデータファイルを除外します。計画時に上限と下限を使用してデータファイルをフィルター処理することにより、Iceberg はクエリのパフォーマンスを大幅に向上させます。

パーティショニングとソート

パーティショニングは、キー列の値が同じレコードをグループ化して書き込みます。パーティショニングの利点は、クエリスキャンの計画: データフィルタリングで説明したように、データの一部のみにアクセスするクエリが高速になることです。 Iceberg は、非表示のパーティショニングをサポートすることでパーティショニングを簡素化します。これは、Iceberg が列の値を取得し、必要に応じてそれを変換することによってパーティション値を生成する方法です。

このユースケースでは、まず、パーティション分割されていない Iceberg テーブルに対して次のクエリを実行します。次に、レコードを除外するクエリの WHERE 条件で使用されるレビューのカテゴリで Iceberg テーブルを分割します。パーティショニングを使用すると、クエリでスキャンできるデータが大幅に少なくなります。次のコードを参照してください。

//Example code in EMR Studio Workspace notebook to create an Iceberg table all_reviews_partitioned partitioned by product_category
reviews_all.writeTo("demo.reviews.all_reviews_partitioned").tableProperty("format-version", "2").partitionedBy($"product_category").createOrReplace()

パーティション化されていない all_reviews テーブルとパーティション化されたテーブルで次の select ステートメントを実行して、パフォーマンスの違いを確認します。

//Run this query on all_reviews table and the partitioned table for performance testing
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews where product_category = 'Watches' and review_date between date('2005-01-01') and date('2005-03-31') //Run the same select query on partitioned dataset
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews_partitioned where product_category = 'Watches' and review_date between date('2005-01-01') and date('2005-03-31')

次の表は、データのパーティショニングによるパフォーマンスの向上を示しています。パフォーマンスが約 50% 向上し、スキャンされるデータが 70% 減少しています。

データセット名	分割されていないデータセット	分割されたデータセット
実行時間 (秒)	8.20	4.25
スキャンされたデータ (MB)	131.55	33.79

実行時間は、テストで複数回実行した平均実行時間であることに注意してください。

パーティショニング後、パフォーマンスが向上しました。ただし、これは、Iceberg マニフェストファイルの列レベルの統計を使用することでさらに改善できます。列レベルの統計を効果的に使用するには、クエリパターンに基づいてレコードをさらに並べ替える必要があります。クエリでよく使用される列を使用してデータセット全体を並べ替えると、各データファイルが特定の列の一意の範囲の値になるようにデータが並べ替えられます。これらの列がクエリ条件で使用されている場合、クエリエンジンはデータファイルをさらにスキップできるため、さらに高速なクエリが可能になります。

コピーオンライトとリードオンマージ

データレイクの Iceberg テーブルに更新と削除を実装する場合、Iceberg テーブルプロパティによって定義される XNUMX つのアプローチがあります。

コピーオンライト – このアプローチでは、Iceberg テーブルに変更 (更新または削除) がある場合、影響を受けるレコードに関連付けられたデータファイルが複製および更新されます。レコードは、複製されたデータファイルから更新または削除されます。 Iceberg テーブルの新しいスナップショットが作成され、新しいバージョンのデータファイルが参照されます。これにより、全体的な書き込みが遅くなります。競合を伴う同時書き込みが必要な場合は、再試行が必要になるため、書き込み時間がさらに長くなります。一方、データを読み取るときは、余分なプロセスは必要ありません。クエリは、最新バージョンのデータファイルからデータを取得します。
マージオンリード – このアプローチでは、Iceberg テーブルに更新または削除があった場合、既存のデータファイルは書き換えられません。代わりに、変更を追跡するために新しい削除ファイルが作成されます。削除の場合、削除されたレコードを含む新しい削除ファイルが作成されます。 Iceberg テーブルを読み取る場合、取得したデータに削除ファイルが適用され、削除レコードが除外されます。更新の場合、更新されたレコードを削除済みとしてマークするために、新しい削除ファイルが作成されます。次に、それらのレコード用に新しいファイルが作成されますが、値は更新されます。 Iceberg テーブルを読み取る場合、取得したデータに削除ファイルと新しいファイルの両方が適用され、最新の変更が反映され、正しい結果が生成されます。そのため、後続のクエリでは、データファイルを削除ファイルと新しいファイルにマージするための追加の手順が発生し、通常はクエリ時間が長くなります。一方、既存のデータファイルを書き換える必要がないため、書き込みは高速になる可能性があります。

XNUMX つのアプローチの影響をテストするには、次のコードを実行して Iceberg テーブルのプロパティを設定します。

//Run code to alter Iceberg table property to set copy-on-write and merge-on-read in EMR Studio Workspace notebook
spark.sql(“ALTER TABLE demo.reviews.all_reviews SET TBLPROPERTIES (‘write.delete.mode’=’copy-on-write’,’write.update.mode’=’copy-on-write’)”)

Athena で update、delete、および select SQL ステートメントを実行して、コピーオンライトとマージオンリードの実行時の違いを示します。

//Example update statement
update reviews.all_reviews set star_rating=5 where product_category = ‘Watches’ and star_rating=4 //Example delete statement
delete from reviews.all_reviews where product_category = ‘Watches’ and star_rating=1 //Example select statement
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews where product_category = ‘Watches’ and review_date between date(‘2005-01-01’) and date(‘2005-03-31’)

次の表は、クエリの実行時間をまとめたものです。

クエリー	コピーオンライト			マージオンリード
クエリー	UPDATE	DELETE	SELECT	UPDATE	DELETE	SELECT
実行時間 (秒)	66.251	116.174	97.75	10.788	54.941	113.44
スキャンしたデータ (MB)	494.06	3.07	137.16	494.06	3.07	137.16

実行時間は、テストで複数回実行した平均実行時間であることに注意してください。

テスト結果が示すように、XNUMX つのアプローチには常にトレードオフがあります。どのアプローチを使用するかは、ユースケースによって異なります。要約すると、考慮事項は読み取りと書き込みのレイテンシに帰着します。次の表を参照して、正しい選択を行うことができます。

.	コピーオンライト	マージオンリード
メリット	読み取りの高速化	より高速な書き込み
デメリット	高価な書き込み	読み取りのレイテンシが高い
使用する場合	頻繁な読み取り、まれな更新と削除、または大規模なバッチ更新に適しています	更新と削除が頻繁に行われるテーブルに適しています

データ圧縮

データファイルのサイズが小さい場合、Iceberg テーブルに数千または数百万のファイルが含まれる可能性があります。これにより、I/O 操作が大幅に増加し、クエリが遅くなります。さらに、Iceberg はデータセット内の各データファイルを追跡します。データファイルが増えると、メタデータも増えます。これにより、メタデータファイルを読み取る際のオーバーヘッドと I/O 操作が増加します。クエリのパフォーマンスを向上させるために、小さなデータファイルを大きなデータファイルに圧縮することをお勧めします。

Iceberg テーブルのレコードを更新および削除するときに、読み取りオンマージアプローチを使用すると、多くの小さな削除または新しいデータファイルが発生する可能性があります。圧縮を実行すると、これらすべてのファイルが結合され、新しいバージョンのデータファイルが作成されます。これにより、読み取り中にそれらを調整する必要がなくなります。より高速な書き込み速度を維持しながら、読み取りへの影響を最小限に抑えるために、定期的な圧縮ジョブを実行することをお勧めします。

次のデータ圧縮コマンドを実行してから、Athena から選択クエリを実行します。

//Data compaction optimize reviews.all_reviews REWRITE DATA USING BIN_PACK //Run this query before and after data compaction
select marketplace,customer_id, review_id,product_id,product_title,star_rating from reviews.all_reviews where product_category = 'Watches' and review_date between date('2005-01-01') and date('2005-03-31')

次の表は、データ圧縮前と圧縮後の実行時間を比較しています。約 40% のパフォーマンスの向上が見られます。

クエリー	データ圧縮前	データ圧縮後
実行時間 (秒)	97.75	32.676 seconds
スキャンしたデータ (MB)	137.16 M	189.19 M

選択クエリが実行されたことに注意してください all_reviews 更新操作と削除操作の後、データ圧縮の前後のテーブル。実行時間は、テストで複数回実行した場合の平均実行時間です。

クリーンアップ

ソリューションのチュートリアルに従ってユースケースを実行したら、次の手順を実行してリソースをクリーンアップし、それ以上のコストを回避します。

Athena から AWS Glue テーブルとデータベースをドロップするか、ノートブックで次のコードを実行します。

// DROP the table spark.sql("DROP TABLE demo.reviews.all_reviews") spark.sql("DROP TABLE demo.reviews.all_reviews_partitioned") // DROP the database spark.sql("DROP DATABASE demo.reviews")

EMR Studio コンソールで、 ワークスペース ナビゲーションペインに表示されます。
作成したワークスペースを選択し、削除.
EMR コンソールで、 ·スタジオ ページで見やすくするために変数を解析したりすることができます。
作成した Studio を選択し、削除.
EMR コンソールで、 クラスター ナビゲーションペインに表示されます。
クラスタを選択して選択します Terminate.
この投稿の前提条件の一部として作成した S3 バケットとその他のリソースを削除します。

まとめ

この投稿では、Apache Iceberg フレームワークと、それが最新のデータレイクで抱えているいくつかの課題の解決にどのように役立つかを紹介しました。次に、Apache Iceberg を使用してデータレイクで増分データを処理するソリューションについて説明しました。最後に、ユースケースの読み取りと書き込みのパフォーマンスを向上させるためのパフォーマンスチューニングについて深く掘り下げました。

この投稿が、データレイクソリューションに Apache Iceberg を採用するかどうかを決定するのに役立つ情報を提供することを願っています。

著者について

フローラ・ウー AWS Data Lab のシニアレジデントアーキテクトです。彼女は、企業顧客がデータ分析戦略を作成し、ビジネスの成果を加速するソリューションを構築するのを支援しています。余暇には、テニス、サルサのダンス、旅行を楽しんでいます。

ダニエル・リー アマゾンウェブサービスのシニアソリューションアーキテクトです。彼は、顧客がクラウドサービスと戦略を開発、採用、実装するのを支援することに重点を置いています。仕事をしていないときは、家族と屋外で過ごすのが好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/use-apache-iceberg-in-a-data-lake-to-support-incremental-data-processing/

タイムスタンプ： 2023 年 3 月 2 日

タイムスタンプ： 2023 年 2 月 23 日

データレイクで Apache Iceberg を使用して増分データ処理をサポートする

プラトン再発行

Apache Iceberg が最新のデータレイクで顧客が求めるものにどのように対処するか

ソリューションの概要

前提条件

データレイクのキュレートされたゾーンに Iceberg データ用の S3 バケットを設定する

EMR クラスターを起動して、Spark を使用して Iceberg ジョブを実行する

EMR Studio でノートブックを作成する

Apache Iceberg の Spark セッションを構成する

データを Iceberg テーブル形式に変換する

Athena で SQL ステートメントの挿入、更新、削除を使用して増分データを処理する

パフォーマンスチューニング

Apache Iceberg テーブルのプロパティを構成する

パーティショニングとソート

クエリスキャンの計画

パーティショニングとソート

コピーオンライトとリードオンマージ

データ圧縮

クリーンアップ

まとめ

著者について

より多くの AWSビッグデータ

OpenSearch を使用してアクセントを区別しない検索を実行する

オープンソース JDBC コネクタを使用した Amazon MSK Connect でデータをストリーミングする | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

Apache Iceberg が最新のデータ レイクで顧客が求めるものにどのように対処するか

ソリューションの概要

前提条件

データレイクのキュレートされたゾーンに Iceberg データ用の S3 バケットを設定する

EMR クラスターを起動して、Spark を使用して Iceberg ジョブを実行する

EMR Studio でノートブックを作成する

Apache Iceberg の Spark セッションを構成する

データを Iceberg テーブル形式に変換する

Athena で SQL ステートメントの挿入、更新、削除を使用して増分データを処理する

パフォーマンスチューニング

Apache Iceberg テーブルのプロパティを構成する

パーティショニングとソート

クエリ スキャンの計画

パーティショニングとソート

コピーオンライトとリードオンマージ

データ圧縮

クリーンアップ

まとめ

著者について

より多くの AWSビッグデータ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

Apache Iceberg が最新のデータレイクで顧客が求めるものにどのように対処するか

クエリスキャンの計画