AWSGlueDataBrewを使用してイベント駆動型のデータ品質パイプラインを構築する

プラトン再発行

フォロワー： 0

企業は、意思決定、レポート作成、機械学習（ML）などのプロセスを推進するために、毎日ますます多くのデータを収集しています。データをクリーンアップして変換する前に、データが使用に適しているかどうかを判断する必要があります。誤ったデータ、欠落したデータ、または不正な形式のデータは、ダウンストリーム分析とMLプロセスに大きな影響を与える可能性があります。データ品質チェックを実行すると、ワークフローの早い段階で問題を特定できるため、問題をより迅速に解決できます。さらに、イベントベースのアーキテクチャを使用してこれらのチェックを実行すると、手動のタッチポイントを減らし、データ量の増加に合わせて拡張できます。

AWS グルー DataBrew は、データ内の重複値、欠落値、外れ値などのデータ品質統計を簡単に見つけることができる視覚的なデータ準備ツールです。 DataBrewでデータ品質ルールを設定して、固有のビジネスニーズに基づいて条件付きチェックを実行することもできます。たとえば、製造元は、特に Part ID 列、または医療提供者は、 SSN 列は特定の長さです。 DataBrewを使用してこれらのルールを作成および検証した後、次を使用できます。アマゾンイベントブリッジ, AWSステップ関数, AWSラムダ, Amazon シンプル通知サービス（Amazon SNS）自動化されたワークフローを作成し、ルールが検証チェックに失敗したときに通知を送信します。

この投稿では、エンドツーエンドのワークフローとこのソリューションの実装方法について説明します。この投稿には、ステップバイステップのチュートリアルが含まれています。 AWSサーバーレスアプリケーションモデル（AWS SAM）テンプレート、および独自のAWS環境にアプリケーションをデプロイするために使用できるサンプルコード。

ソリューションの概要

この投稿の解決策はサーバーレスデータ品質検証のための完全に自動化されたエンドツーエンドのイベント駆動型パイプラインを構築するAWSサービス。次の図は、ソリューションアーキテクチャを示しています。

ソリューションワークフローには、次の手順が含まれます。

新しいデータをにアップロードするとき Amazon シンプルストレージサービス（Amazon S3）バケット、イベントはEventBridgeに送信されます。
EventBridgeルールは、StepFunctionsステートマシンの実行をトリガーします。
ステートマシンは、データ品質ルールセットとルールで構成されたDataBrewプロファイルジョブを開始します。同様のソリューションの構築を検討している場合は、DataBrewプロファイルジョブの出力場所とソースデータのS3バケットが一意である必要があります。これにより、再帰的なジョブの実行が防止されます。リソースを次のように展開します AWS CloudFormation テンプレート。一意のS3バケットを作成します。
Lambda関数は、Amazon S3からデータ品質の結果を読み取り、ブール応答をステートマシンに返します。関数は戻ります false ルールセット内のXNUMXつ以上のルールが失敗した場合、 true すべてのルールが成功した場合。
ブール応答が false、ステートマシンはAmazon SNSでEメール通知を送信し、ステートマシンはで終了します failed 状態。ブール応答が true、ステートマシンはで終了します succeed 状態。このステップでソリューションを拡張して、成功または失敗したときに他のタスクを実行することもできます。たとえば、すべてのルールが成功した場合、EventBridgeメッセージを送信して、DataBrewで別の変換ジョブをトリガーできます。

この投稿では、AWS CloudFormationを使用して、イベント駆動型データ品質検証ソリューションの完全に機能するデモをデプロイします。有効なコンマ区切り値（CSV）ファイルをAmazon S3にアップロードし、その後に無効なCSVファイルをアップロードして、ソリューションをテストします。

手順は以下の通りです。

CloudFormationスタックを起動して、ソリューションリソースをデプロイします。
ソリューションをテストします。
1. 有効なCSVファイルをAmazonS3にアップロードし、データ品質の検証とステップ関数ステートマシンが成功することを確認します。
2. 無効なCSVファイルをAmazonS3にアップロードし、データ品質の検証とStep Functionsステートマシンの失敗を確認し、AmazonSNSから電子メール通知を受信します。

すべてのサンプルコードは、 GitHubリポジトリ.

前提条件

このチュートリアルでは、次の前提条件を満たしている必要があります。

AWSCloudFormationを使用してソリューションリソースをデプロイする

CloudFormationスタックを使用して、イベント駆動型のデータ品質検証ソリューションに必要なリソースをデプロイします。スタックには、DataBrewのサンプルデータセットとルールセットが含まれています。

AWSアカウントにサインインしてから、 発射スタック:
ソフトウェア設定ページで、下図のように クイック作成スタック ページ、 電子メールアドレス、AmazonSNSメール通知の有効なメールアドレスを入力します。
残りのオプションはデフォルトに設定したままにします。
確認チェックボックスを選択します。
選択する スタックを作成します。

CloudFormationスタックに到達するのに約5分かかります CREATE_COMPLETE 状態。

指定したメールアドレスの受信トレイを確認し、SNSサブスクリプションに同意してください。

ウォークスルーの最後に電子メール通知機能を示すには、サブスクリプションの確認を確認して受け入れる必要があります。

ソフトウェア設定ページで、下図のように出力スタックのタブには、テンプレートが作成したDataBrewおよびStepFunctionsリソースを参照するためのURLがあります。また、後の手順で使用する完成したAWSCLIコマンドにも注意してください。

あなたが AWSGlueDataBrewRuleset 値のリンクをクリックすると、次のスクリーンショットのように、ルールセットの詳細ページが表示されます。このウォークスルーでは、欠落している値、外れ値、および文字列の長さをチェックするXNUMXつのルールを含むデータ品質ルールセットを作成します。

ソリューションをテストする

次の手順では、AWS CLIを使用してCSVファイルの正しいバージョンと正しくないバージョンをアップロードし、イベントドリブンのデータ品質検証ソリューションをテストします。

ターミナルまたはコマンドラインプロンプトを開き、AWSCLIを使用してサンプルデータをダウンロードします。 CloudFormationスタック出力からのコマンドをキー名で使用します CommandToDownloadTestData:
```
aws s3 cp s3://<your_bucket>/artifacts/BDB-1942/votes.csv
```
AWS CLIを再度使用して、変更されていないCSVファイルをS3バケットにアップロードします。文字列を置き換えますバケット名を使用するか、CloudFormationテンプレートの出力から提供されたコマンドをコピーして貼り付けます。
```
aws s3 cp votes.csv s3://<your_bucket>/artifacts/BDB-1942/votes.csv
```
ステップ関数コンソールで、CloudFormationテンプレートによって作成されたステートマシンを見つけます。

前述のCloudFormation出力でURLを見つけることができます。

ソフトウェア設定ページで、下図のように実行タブをクリックすると、ステートマシンの新しい実行が表示されます。
実行のURLを選択して、ステートマシンのグラフを表示し、その進行状況を監視します。

次の画像は、ステートマシンのワークフローを示しています。

データ品質ルールの失敗を示すために、少なくともXNUMX回編集します。 votes.csv ファイルにソフトウェアを指定する必要があります。

好みのテキストエディタまたはスプレッドシートツールでファイルを開き、XNUMXつのセルだけを削除します。

次のスクリーンショットでは、LinuxでGNUNanoエディターを使用しています。スプレッドシートエディタを使用してセルを削除することもできます。これにより、「欠落している値がないかすべての列をチェックする」ルールが失敗します。

次のスクリーンショットは、変更前のCSVファイルを示しています。

次のスクリーンショットは、変更されたCSVファイルを示しています。

編集したものを保存する votes.csv ファイルを作成し、コマンドプロンプトまたはターミナルに戻ります。
AWS CLIを使用して、ファイルをS3バケットにもう一度アップロードします。以前と同じコマンドを使用します。
```
aws s3 cp votes.csv s3://<your_bucket>/artifacts/BDB-1942/votes.csv
```
ステップ関数コンソールで、実行されている最新のステートマシンに移動して監視します。

データ品質の検証が失敗し、SNS電子メール通知がトリガーされ、ステートマシン全体の実行が失敗します。

次の画像は、障害が発生したステートマシンのワークフローを示しています。

次のスクリーンショットは、SNSメールの例を示しています。

DataBrewコンソールでルールの失敗を調査するには、 AWSGlueDataBrewProfileResults CloudFormationスタック出力の値。

クリーンアップ

今後の請求を回避するには、リソースを削除してください。 AWS CloudFormationコンソールで、という名前のスタックを削除します AWSBigDataBlogDataBrewDQSample.

まとめ

この投稿では、自動化されたイベント駆動型のデータ品質検証パイプラインを構築する方法を学びました。 DataBrewを使用すると、ビジネス要件および技術要件のデータ品質ルール、しきい値、およびルールセットを定義できます。 Step Functions、EventBridge、およびAmazon SNSを使用すると、ニーズに合わせてカスタマイズ可能なエラー処理とアラートを備えた複雑なパイプラインを構築できます。

このソリューションとソースコードの詳細については、次のWebサイトをご覧ください。 GitHubリポジトリ。 DataBrewのデータ品質ルールの詳細については、次のWebサイトをご覧ください。 AWS Glue DataBrewにより、お客様はデータ品質ルールを作成して、ビジネス要件を定義および検証できるようになりました。またはを参照してください AWS GlueDataBrewでのデータ品質の検証.

著者について

レイスアルサードーン は、エンビジョンエンジニアリングチームのプリンシパルプロトタイピングアーキテクトです。彼は、AI、機械学習、IoTとエッジコンピューティング、ストリーミング分析、ロボット工学、空間コンピューティングを使用してプロトタイプとソリューションを構築し、実際の顧客の問題を解決しています。余暇には、写真撮影、ドローンフライト、ハイキング、ペイントボールなどのアウトドアアクティビティを楽しんでいます。

ゴードンバージェス AWS GlueDataBrewのシニアプロダクトマネージャーです。彼は、顧客がデータから洞察を発見できるよう支援することに情熱を注いでおり、分析製品のユーザーエクスペリエンスと豊富な機能の構築に注力しています。仕事以外では、ゴードンは読書、コーヒー、コンピューターの構築を楽しんでいます。

ソース：https：//aws.amazon.com/blogs/big-data/build-event-driven-data-quality-pipelines-with-aws-glue-databrew/

タイムスタンプ： 2022 年 1 月 12 日

より多くの AWS

データウェアハウスのAmazonRedshiftへの移行を加速する–パート3

ソースクラスター：

AWS

ソースノード： 1875312

タイムスタンプ： 2021 年 9 月 20 日

AWS Glue データカタログにデータの説明を追加することで、ビジネスユーザーのデータ検出を簡素化します

ソースクラスター：

AWS

ソースノード： 1865229

タイムスタンプ： 2021 年 8 月 23 日

AmazonRedshiftSpectrumデータのエラー処理を定義する

ソースクラスター：

プラトン再発行

ソリューションの概要

前提条件

AWSCloudFormationを使用してソリューションリソースをデプロイする

ソリューションをテストする

クリーンアップ

まとめ

著者について

より多くの AWS

AmazonRedshiftSpectrumデータのエラー処理を定義する

Apache Ranger を使用して Amazon EMR での SparkSQL データ操作を承認する

Amazon Athena を使用して Amazon S3 データレイク内の Apache Hudi データセットをクエリするパート 1: 読み取りに最適化されたクエリ

Amazon Athena と AWS Step Functions を使用して ETL パイプラインを構築およびオーケストレーションする

AmazonAthenaを使用してクロスアカウントAWSGlueデータカタログをクエリする

Jobcase が Amazon Redshift ML を使用して大規模な求人検索コンテンツを推奨する方法

新しい SPICE 機能を使用して、Amazon QuickSight でより大規模な SPICE データセットを作成し、データをより高速に更新します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー