今日、何十万もの顧客がデータレイクを分析と機械学習に使用しています。 ただし、データ エンジニアは、このデータを使用する前に、データをクレンジングして準備する必要があります。 顧客が自信を持ってビジネス上の意思決定を行うためには、基礎となるデータが正確かつ最新である必要があります。 そうしないと、データの利用者はデータに対する信頼を失い、最適ではない、または誤った決定を下してしまいます。 データが正確で最新のものかどうかを評価することは、データ エンジニアにとって一般的なタスクです。 現在、さまざまなデータ品質ツールがあります。 ただし、一般的なデータ品質ツールでは通常、データ品質を監視するために手動プロセスが必要です。
AWS Glue Data Quality は、AWS Glue のプレビュー機能です。 AWSグルー のデータ品質を測定および監視する Amazon シンプル ストレージ サービス (Amazon S3) データレイクと、AWS Glue の抽出、変換、ロード (ETL) ジョブ。 これはオープン プレビュー機能であるため、 利用可能な地域. コードを記述することなく、AWS Glue Studio コンソールでデータ品質チェックを簡単に定義および測定できます。 これにより、データ品質の管理が簡素化されます。
この投稿は、AWS Glue データ品質の仕組みを説明する 2 回の投稿シリーズのパート XNUMX です。 このシリーズの以前の投稿をご覧ください。
この投稿では、データ パイプラインのデータ品質を測定およびモニタリングする AWS Glue ジョブを作成する方法を示します。 また、データ品質の結果に基づいてアクションを実行する方法も示します。
ソリューションの概要
データ エンジニアがデータ パイプラインを構築して、未加工のゾーンからデータ レイクのキュレートされたゾーンにデータを取り込む必要があるユース ケースの例を考えてみましょう。 データ エンジニアとしての主な責任の XNUMX つは、データの抽出、変換、読み込みに加えて、データの品質を検証することです。 データ品質の問題を事前に特定することで、キュレートされたゾーンに不良データを配置したり、困難なデータ破損インシデントを回避したりすることができます。
この投稿では、簡単にセットアップする方法を学びます 内蔵 & カスタム AWS Glue ジョブのデータ検証チェックにより、不良データがダウンストリームの高品質データを破損するのを防ぎます。
この投稿で使用されるデータセットは合成的に生成されます。 次のスクリーンショットは、データの例を示しています。
AWSCloudFormationを使用してリソースを設定する
この投稿には AWS CloudFormation クイックセットアップ用のテンプレート。 ニーズに合わせてレビューおよびカスタマイズできます。
CloudFormation テンプレートは、次のリソースを生成します。
- Amazon Simple Storage Service (Amazon S3) バケット (
gluedataqualitystudio-*
). - S3 バケット内の次のプレフィックスとオブジェクト:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS IDおよびアクセス管理 (IAM) ユーザー、役割、およびポリシー。 IAM ロール (
GlueDataQualityStudio-*
) には、S3 バケットからの読み取りと書き込みのアクセス許可があります。 - AWSラムダ このスタックを作成および削除するためにそれらの関数に必要な関数と IAM ポリシー。
リソースを作成するには、次の手順を実行します。
- にサインインする AWS CloudFormationコンソール セクションに
us-east-1
領域。 - 選択する 発射スタック:
- 選択 AWS CloudFormationがIAMリソースを作成する可能性があることを認めます.
- 選択する スタックを作成 スタックの作成手順が完了するまで待ちます。
ソリューションを実装する
ソリューションの構成を開始するには、次の手順を完了します。
- ソフトウェア設定ページで、下図のように AWS GlueStudioコンソール、選択する Jobs > Create New Job ナビゲーションペインに表示されます。
- 選択 真っ白なキャンバスを使ったビジュアル 選択して 創造する.
- 選択する ジョブの詳細 タブをクリックしてジョブを構成します。
- 名前 、 入る
GlueDataQualityStudio
. - IAMの役割で始まる役割を選択します
GlueDataQualityStudio-*
. - 接着剤バージョン、選択する 接着剤3.0.
- しおり、選択する 無効にします. これにより、同じ入力データセットでこのジョブを複数回実行できます。
- リトライ回数、 入る
0
. - 高度なプロパティ セクションで、CloudFormation テンプレートによって作成された S3 バケットを提供します (
gluedataqualitystudio-*
). - 選択する Save.
- ジョブが保存されたら、 ビジュアル タブと ソース メニュー、選択 アマゾンS3.
- ソフトウェア設定ページで、下図のように データソースのプロパティ– S3 タブ、 S3ソースタイプ選択 S3の場所.
- 選択する S3を参照 プレフィックスに移動します
/datalake/raw/customer/
で始まる S3 バケット内gluedataqualitystudio-*
. - 選択する スキーマを推測する.
- ソフトウェア設定ページで、下図のように Action メニュー、選択 データ品質の評価.
- 選択する データ品質の評価 ノード。
ソフトウェア設定ページで、下図のように 最適化の適用 タブで、データ品質ルールの構築を開始できるようになりました。 作成する最初のルールは、Customer_ID
を使用して一意で null ではないisPrimaryKey
ルール。 - ソフトウェア設定ページで、下図のように ルールの種類 タブ DQDL ルールビルダー、 検索する
isprimarykey
プラス記号を選択します。 - ソフトウェア設定ページで、下図のように スキーマ タブ DQDL ルールビルダー、横のプラス記号を選択します
Customer_ID
. - ルール エディターで、削除します。
id
.
追加する次のルールは、First_Name
列の値はすべての行に存在します。 - ルール エディタでデータ品質ルールを直接入力することもできます。 カンマ(,)を追加して入力
IsComplete "First_Name",
最初のルールの後。
次に、カスタム ルールを追加して、存在しない行がないことを検証します。Telephone
orEmail
. - ルール エディターに次のカスタム ルールを入力します。
- この投稿では、 データ品質が失敗するとジョブが失敗する 選択して ターゲットをロードせずにジョブを失敗 データ 行動。 の中に データ品質出力設定 セクションでは、選択 S3を参照 プレフィックスに移動します
dqresults
で始まる S3 バケット内gluedataqualitystudio-*
. - ソフトウェア設定ページで、下図のように ターゲット メニュー、選択 アマゾンS3.
- 選択する データターゲット–S3バケット ノード。
- ソフトウェア設定ページで、下図のように データターゲットのプロパティ– S3 タブ、 フォーマット、選択する 寄せ木細工の床、および用 圧縮タイプ、選択する 粋な.
- S3ターゲットの場所、選択する S3を参照 プレフィックスに移動します
/datalake/curated/customer/
で始まる S3 バケット内gluedataqualitystudio-*
. - 選択する Save、を選択します ラン.
[実行] タブでジョブ実行の詳細を表示できます。 この例では、ジョブはエラー メッセージ「AssertionError: The job failed due to failed DQ rules for node: 」
[データ品質] タブでデータ品質の結果を確認できます。 この例では、データセット内の行の XNUMX つにデータがないため、カスタム データ品質検証が失敗しました。Telephone
orEmail
の値です。Evaluate Data Quality の結果も、ノードのデータ品質結果の場所パラメーターに基づいて JSON 形式で S3 バケットに書き込まれます。 - MFAデバイスに移動する
dqresults
S3 バケットの下のプレフィックスgluedataqualitystudio-*
. データ品質の結果が日付ごとに分割されていることがわかります。
以下は、JSON ファイルの出力です。 このファイル出力を使用して、カスタムのデータ品質視覚化ダッシュボードを構築できます。
を監視することもできます。 データ品質の評価 ノードスルー アマゾンクラウドウォッチ データ品質結果に関する通知を送信するようにメトリクスを設定し、アラームを設定します。 CloudWatch アラームの設定方法の詳細については、次を参照してください。 AmazonCloudWatchアラームの使用.
クリーンアップ
将来の課金を回避し、未使用のロールとポリシーをクリーンアップするには、作成したリソースを削除します。
- 削除
GlueDataQualityStudio
この投稿の一部として作成したジョブ。 - AWS CloudFormation コンソールで、
GlueDataQualityStudio
スタック。
まとめ
AWS Glue Data Quality は、ETL パイプラインのデータ品質を測定およびモニタリングする簡単な方法を提供します。 この投稿では、データ品質の結果に基づいて必要なアクションを実行する方法を学びました。これにより、高いデータ標準を維持し、自信を持ってビジネス上の意思決定を下すことができます。
AWS Glue データ品質の詳細については、ドキュメントをご覧ください。
著者について
ディーンバンドゥ・プラサド AWS のシニア分析スペシャリストであり、ビッグデータ サービスを専門としています。 彼は、顧客が AWS クラウドで最新のデータ アーキテクチャを構築するのを支援することに情熱を注いでいます。 彼は、あらゆる規模の顧客がデータ管理、データ ウェアハウス、およびデータ レイク ソリューションを実装するのを支援してきました。
ヤニス・メンテキディス AWS Glue チームのシニアソフトウェア開発エンジニアです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- 私たちについて
- アクセス
- 正確な
- 認める
- Action
- 行動
- 後
- すべて
- ことができます
- 既に
- Amazon
- 分析論
- &
- 建築
- AWS
- AWS CloudFormation
- AWSグルー
- 悪い
- 悪いデータ
- ベース
- なぜなら
- ビッグ
- ビッグデータ
- ビルド
- 建物
- ビジネス
- 場合
- 課金
- チェック
- 小切手
- 選択する
- クラウド
- コラム
- コマンドと
- コンプリート
- 確信して
- 検討
- 領事
- 消費者
- 腐敗
- 作ります
- 作成した
- 創造
- キュレーション
- カスタム
- 顧客
- Customers
- カスタマイズ
- データ
- データレイク
- データ管理
- 日付
- 決定
- 細部
- 開発
- 直接に
- ドキュメント
- 簡単に
- エディタ
- エンジニア
- エンジニア
- 入力します
- エラー
- エーテル(ETH)
- 評価する
- 例
- 存在
- 体験
- 説明する
- エキス
- Failed:
- 失敗
- 特徴
- File
- 名
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- から
- 機能
- 未来
- 生成された
- 生成
- 受け
- 助けました
- 助け
- ことができます
- ハイ
- 高品質
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 何百
- 識別
- アイデンティティ
- 実装する
- in
- 含ま
- 問題
- IT
- ジョブ
- Jobs > Create New Job
- JSON
- キー
- 湖
- LEARN
- 学んだ
- 学習
- 負荷
- ローディング
- 場所
- 失う
- 機械
- 機械学習
- 維持する
- make
- 管理します
- 管理
- 管理する
- マニュアル
- だけど
- 措置
- メニュー
- メッセージ
- メトリック
- かもしれない
- モダン
- モニター
- モニター
- 他には?
- の試合に
- ナビゲート
- ナビゲーション
- 必要
- ニーズ
- 次の
- 通知
- オブジェクト
- オファー
- ONE
- 開いた
- さもないと
- ペイン
- パラメーター
- 部
- 情熱的な
- 許可
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- さらに
- ポリシー
- ポスト
- 準備
- 現在
- 防ぐ
- プレビュー
- 前
- 主要な
- ラボレーション
- プロパティ
- 提供します
- は、大阪で
- 品質
- クイック
- Raw
- 読む
- 最近
- 地域
- 必要とする
- の提出が必要です
- リソース
- 結果
- 結果
- レビュー
- 職種
- 役割
- 行
- ルール
- ルール
- ラン
- 同じ
- を検索
- セクション
- シリーズ
- サービス
- サービス
- セッションに
- 設定
- 表示する
- 作品
- 符号
- 簡単な拡張で
- サイズ
- So
- ソフトウェア
- ソフトウェア開発
- 溶液
- ソリューション
- ソース
- 専門家
- 特化
- スタック
- 規格
- start
- 開始
- 起動
- 手順
- ステップ
- ストレージ利用料
- 研究
- スーツ
- 総合的に
- 取る
- ターゲット
- 仕事
- チーム
- template
- 数千
- 介して
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 今日
- 豊富なツール群
- 最適化の適用
- 変換
- 信頼
- 下
- 根本的な
- ユニーク
- 未使用
- つかいます
- 使用事例
- users
- 通常
- 検証
- 値
- さまざまな
- 詳しく見る
- 可視化
- wait
- かどうか
- which
- 意志
- 無し
- 作品
- 書きます
- 書き込み
- 書かれた
- あなたの
- ゼファーネット