データ ガバナンスとは、ビジネス価値を生み出す目的で、データのライフサイクル全体にわたってデータの品質と適切な処理を確保するために組織が使用するポリシー、プロセス、およびシステムの集合です。 顧客はデータを最も重要な資産の XNUMX つとして認識しているため、データ ガバナンスはますます重要視されています。 効果的なデータ ガバナンスは、データ品質の向上、データ管理コストの削減、および利害関係者のデータへの安全なアクセスの確保によって、より優れた意思決定を可能にします。 さらに、データ プライバシー (GDPR や CCPA など) やデータ レジデンシーに関する規制 (EU、ロシア、中国など) を伴うますます複雑化する規制環境に準拠するには、データ ガバナンスが必要です。
AWS のお客様にとって、効果的なデータ ガバナンスは意思決定を改善し、ビジネスの俊敏性を高め、競争上の優位性を提供し、規制義務の違反による罰金のリスクを軽減します。 当社のサービスポートフォリオにシームレスに統合された包括的なエンドツーエンドのデータガバナンスソリューションをお客様に提供するユニークな機会を理解しており、 AWSレイクフォーメーション と AWSGlueデータカタログ これらの課題を解決する鍵となります。
この投稿では、AWS Glue データカタログ、AWS Glue クローラー、および Lake Formation チームが 2022 年に提供した機能を要約できることを嬉しく思います。データガバナンス、データメッシュ、および最新のデータに関するいくつかの主要な講演とソリューションを収集しました。 AWS re:Invent 2022 で公開および提示されたアーキテクチャ、および簡単に参照できるようにお客様と AWS パートナーによって構築されたいくつかのデータレイク ソリューション。 データ プラットフォーム ビルダー、データ エンジニア、データ サイエンティスト、またはデータ レイク ソリューションに関心のあるテクノロジ リーダーのいずれであっても、この投稿は役に立ちます。
お客様が Lake Formation を使用してデータを保護および共有する方法について詳しく知るには、GoDaddy の詳細を確認することをお勧めします 分散型データ メッシュ、ノボ ノルディスクの 最新のデータアーキテクチャ、および JP モルガンの改善 フェデレーション データ レイク、Lake Formation を使用した管理されたデータ メッシュの実装。 また、AWS パートナーが Lake Formation と統合してお客様が独自のデータレイクを構築するのを支援する方法については、Starburst の Web サイトで学ぶことができます。 データ メッシュ ソリューション、インフォマティカの 自動データ共有ソリューション、あはなさん Lake Formation と Presto の統合、昇順のカスタム データ ガバナンス システム、PBS の使用方法 データレイクでの機械学習、および hc1 が提供する方法 パーソナライズされた健康に関する洞察 顧客のために。
お客様が Lake Formation を使用して構築する方法を確認できます 最新のデータ アーキテクチャ 次の re:Invent 2022 トークで:
Lake Formation チームは顧客からのフィードバックに耳を傾け、クロスアカウント データ ガバナンスの分野で改善を行い、データ レイクのソースを拡大し、ビジネス データ カタログの統一されたデータ ガバナンスを可能にし、安全な企業間データ共有を可能にしました。きめ細かいアクセス制御のカバレッジエリアを Amazonレッドシフト. この投稿の残りの部分では、2022 年の進捗状況を喜んで共有します。
クロスアカウント ガバナンスの強化
Lake Formation は、顧客が組織内のアカウント間でデータを共有するための基盤を提供します。 AWS Glue データカタログのリソースを共有して、 AWS IDおよびアクセス管理 XNUMX つの方法を使用して、アカウント内の (IAM) プリンシパルと他の AWS アカウント。 XNUMX つ目は名前付きリソース方式と呼ばれ、ユーザーはデータベースとテーブルの名前を選択し、共有する権限の種類を選択できます。 XNUMX 番目の方法は LF タグを使用します。ユーザーは LF タグを作成してデータベースとテーブルに関連付け、LF タグ ポリシーと式を使用して IAM プリンシパルにアクセス許可を付与できます。
2022 年 3 月、Lake Formation はそのバージョン XNUMX を導入しました。 クロスアカウント共有機能. この新しいバージョンでは、Lake Formation ユーザーは LF タグを使用してカタログ リソースを共有できます。 AWS組織 レベル。 LF タグを使用してデータを共有すると、アクセス許可のスケーリングが容易になり、データ レイク ビルダーの管理作業が軽減されます。 クロスアカウント共有バージョン 3 では、他のアカウントの特定の IAM プリンシパルとリソースを共有することもでき、データ所有者は他のアカウントのデータにアクセスできるユーザーを制御できます。 最後に、導入により、Data Catalog リソース ポリシーの記述と維持のオーバーヘッドを取り除きました。 AWS リソース アクセス マネージャー (AWS RAM) は、クロスアカウント共有バージョン 3 の LF タグベースのポリシーを使用して招待します。さらに探索することをお勧めします Lake Formation でのクロスアカウント共有.
新しいデータへの Lake Formation 権限の拡張
re:Invent 2022 まで、Lake Formation は Data Catalog リソースの IAM プリンシパルのアクセス許可管理を提供し、基盤となるデータは主に Amazon シンプル ストレージ サービス (アマゾン S3)。 re:Invent 2022 では、 Amazon Redshift データ共有の Lake Formation アクセス許可管理 プレビューモードで。 Amazon Redshift は、AWS クラウド内の完全マネージド型のペタバイト規模のデータ ウェアハウス サービスです。 の データ共有機能 データ所有者は、Amazon Redshift クラスター内のデータベース、テーブル、およびビューをグループ化し、AWS アカウント内または AWS アカウント間で他の Amazon Redshift クラスターと共有できます。 データ共有により、同じデータの複数のコピーを異なるデータ ウェアハウスに保持する必要性が減り、組織全体のビジネス上の意思決定が加速されます。 Lake Formation は、テーブルとビューに対するきめ細かいアクセス制御を提供することで、Amazon Redshift データ共有内でのデータ共有をさらに強化します。
この機能の詳細については、次を参照してください。 AWS Lake Formation が管理する Redshift データ共有 (プレビュー) & Lake Formation による Redshift データ共有の管理方法.
アマゾンEMR は、Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、および Presto を使用してビッグ データ アプリケーションを大規模に実行するマネージド クラスター プラットフォームです。 Amazon EMR を使用して、S3 データレイクでバッチおよびストリーム処理分析ジョブを実行できます。 Amazon EMR リリース 6.7.0 以降、 ランタイム IAM ロールでの Lake Formation 権限管理 EMR ステップ API で使用されます。 この機能を使用すると、アプリケーションを送信する IAM ロールに Lake Formation を使用してテーブルレベルおよび列レベルのアクセス許可を適用する EMR Steps API を介して、Apache Spark および Apache Hive アプリケーションを EMR クラスターに送信できます。 この Lake Formation と Amazon EMR の統合により、ランタイム IAM ロールを使用してアプリケーションを分離することで、異なるアクセス許可を持つ組織内の複数のユーザー間で EMR クラスターを共有できます。 Lake Formation ワークショップでこの機能を確認することをお勧めします ランタイム ロールを使用した Amazon EMR との統合. ユース ケースを調べるには、次を参照してください。 Amazon EMR ステップのランタイム ロールの紹介: IAM ロールと AWS Lake Formation を使用して、Amazon EMR でアクセス コントロールを制御する.
Amazon SageMakerスタジオ は、機械学習 (ML) 用の完全に統合された開発環境 (IDE) であり、データ サイエンティストと開発者がモデルの構築、トレーニング、チューニング、デプロイ用のデータを準備できるようにします。 Studio は Amazon EMR とのネイティブ統合を提供するため、データ サイエンティストやデータ エンジニアは、Studio ノートブックを使用して Apache Spark、Presto、Hive などのオープンソース フレームワークを使用して、ペタバイト規模でインタラクティブにデータを準備できます。 のリリースに伴い、 ランタイム IAM ロールでの Lake Formation 権限管理、Studio は、Lake Formation を使用したテーブル レベルおよび列レベルのアクセスをサポートするようになりました。 ユーザーは Studio ノートブックから EMR クラスターに接続するときに、IAM ロール ( ランタイム IAM ロール) に接続します。 データ アクセスが Lake Formation によって管理されている場合、ユーザーはランタイム ロールにアタッチされたポリシーを使用して、テーブル レベルおよび列レベルのアクセス許可を適用できます。 詳細については、を参照してください。 Amazon SageMaker Studio の AWS Lake Formation と Amazon EMR を使用して、きめ細かいデータアクセス制御を適用します.
さまざまなデータの取り込みとカタログ化
堅牢なデータ ガバナンス モデルには、組織の多くのデータ ソースからのデータと、これらのさまざまなデータ資産を検出してカタログ化するための方法が含まれます。 AWS Glue クローラは、Amazon S3、Amazon Redshift、NoSQL データベースなどのソースからデータを検出し、AWS Glue データ カタログに入力する機能を提供します。
2022年に、 Snowflake の AWS Glue クローラーのサポート & Delta Lake テーブルの AWS Glue クローラーのサポート. これらの統合により、AWS Glue クローラーは、これらの一般的なデータ ソースに基づいて Data Catalog テーブルを作成および更新できます。 これにより、これらの Data Catalog テーブルをソースおよびターゲットとして、AWS Glue を使用して抽出、変換、ロード (ETL) ジョブをさらに簡単に作成できます。
2022 年に、AWS Glue クローラーの UI が再設計され、ユーザーエクスペリエンスが向上しました。 この改訂の一部として提供される主な機能強化の 3 つは、AWS Glue クローラーの履歴に対するより優れた洞察です。 クローラー履歴 UI では、クローラーの実行、スケジュール、データ ソース、およびタグを簡単に確認できます。 クロールごとに、クローラー履歴は、データベース スキーマの変更または Amazon SXNUMX パーティションの変更の概要を提供します。 クローラーの履歴は、DPU 時間に関する詳細情報も提供し、クローラーの操作とコストの分析とデバッグに費やす時間を削減します。 クローラ UI に追加された新しい機能を確認するには、次を参照してください。 強化された AWS Glue UI とクローラー履歴を使用して、AWS Glue クローラーをセットアップおよびモニタリングします.
2022 年には、Amazon S3 イベント通知に基づくクローラーのサポートも拡張し、カタログ テーブルをサポートしました。 この機能を使用すると、増分クロールをデータ パイプラインからスケジュールされた AWS Glue クローラーにオフロードして、クロールを増分 S3 イベントに減らすことができます。 詳細については、次を参照してください。 既存の Glue カタログ テーブルを使用してデータ レイクの増分クロールを構築する.
データレイクを超えてデータを共有するその他の方法
re:Invent 2022 で、次のプレビューを発表しました。 AWS Lake Formation の AWS データ交換これは、データ サブスクライバーが、Lake Formation を通じて直接管理されているサードパーティのデータセットを見つけてサブスクライブできるようにする新機能です。 今まで、 AWSデータ交換 サブスクライバーは、プロバイダーのファイルを独自の S3 バケットにエクスポートし、プロバイダーの API を呼び出して、サードパーティのデータセットにアクセスできます。 アマゾンAPIゲートウェイ、または Amazon Redshift クラスターからプロデューサーの Amazon Redshift データ共有をクエリします。 新しい Lake Formation 統合により、データプロバイダーは Lake Formation タグを使用して AWS Data Exchange データセットをキュレートします。 データ サブスクライバーは、他の AWS Glue データ カタログ リソースと同様に、これらのタグに関連付けられたデータベースとテーブルをクエリおよび探索できます。 組織は、リソースベースの Lake Formation 権限を適用して、ライセンスされたデータセットを同じアカウント内またはアカウント間で共有できます。 AWS ライセンス マネージャー. AWS Data Exchange for Lake Formation は、データのオンボーディングを加速し、エンドユーザーがサードパーティ データにアクセスするために必要な ETL の量を削減し、サードパーティ データのガバナンスとアクセス制御を一元化することにより、データのライセンス供与と共有操作を合理化します。
re:Invent 2022 では、次のことも発表しました アマゾンデータゾーンは、AWS、オンプレミス、およびサードパーティのソースに保存されたデータのカタログ化、検出、共有、および管理をより迅速かつ簡単にする新しいデータ管理サービスです。 Amazon DataZone は、AWS Glue データ カタログの技術メタデータを補足するビジネス データ カタログ サービスです。 Amazon DataZone は Lake Formation のアクセス許可管理と統合されているため、データへのアクセスを効果的に管理および管理し、誰がどのデータにどのような目的でアクセスしているかを監査できます。 Amazon DataZone のパブリッシャー/サブスクライバー モデルを使用すると、リージョン間でデータ資産を共有してアクセスできます。 サービスとその機能の詳細については、 Amazon DataZone のよくある質問 & re:Invent の起動.
まとめ
データはあらゆる分野とあらゆるビジネスを変革しています。 しかし、ほとんどの企業が追跡できないほどの速さでデータが増加しているため、そのデータを収集して保護し、そこから価値を引き出すことは困難です。 最新のデータ戦略は、データを使用してより良いビジネス成果を生み出すのに役立ちます。 AWS は、エンド ツー エンドのデータ ジャーニーのための最も完全なサービス セットを提供し、データから価値を解き放ち、それを洞察に変えるのに役立ちます。
AWS では、お客様の要件から逆算します。 Lake Formation チームは、この投稿で説明されている機能を提供するために懸命に取り組んできました。ぜひチェックしてみてください。 継続的に発明に注力することで、組織が新しいデータ ガバナンス モデルを構築できるようにする上で重要な役割を果たし、より多くのビジネス価値を迅速に引き出すのに役立つことを願っています。
Lake Formation を始めるには、 ハンズオンワークショップ モジュールと 入門チュートリアル. お客様のデータ レイクとデータ ガバナンスのユースケースについて、お客様からのご連絡をお待ちしております。 AWS アカウント チームを通じて連絡を取り、コメントを共有してください。
著者について
ジェイソン・バーコウィッツ AWS Lake Formation のシニアプロダクトマネージャーです。 彼は、機械学習とデータ レイク アーキテクチャのバックグラウンドを持っています。 彼は、顧客がデータドリブンになるのを支援しています。
アーティ・スリニヴァサン AWS Lake Formation のシニア ビッグデータ アーキテクトです。 彼女は、AWS の顧客とパートナー向けのデータ レイク ソリューションの構築を楽しんでいます。 キーボードを操作していないときは、最新の科学と技術のトレンドを探求し、家族との時間を過ごしています。
レオナルドゴメス AWS のシニア アナリティクス スペシャリスト ソリューション アーキテクトです。 カナダのトロントに拠点を置く彼は、データ管理の分野で XNUMX 年以上の経験を持ち、世界中の顧客がビジネスと技術のニーズに対応できるよう支援しています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- 能力
- できる
- 私たちについて
- 加速する
- 加速している
- アクセス
- データへのアクセス
- アクセス
- アクセス
- アカウント
- 越えて
- 追加されました
- 添加
- NEW
- 住所
- 管理人
- 利点
- ことができます
- Amazon
- アマゾンEMR
- アマゾンセージメーカー
- 量
- 分析論
- 分析する
- &
- 発表の
- アパッチ
- Apache Spark
- API
- API
- 申し込み
- 申し込む
- 適切な
- 建築
- AREA
- エリア
- 周りに
- 資産
- 仲間
- 関連する
- 監査
- AWS
- AWSグルー
- AWSレイクフォーメーション
- AWS re:Invent
- 背景
- ベース
- になる
- より良いです
- 越えて
- ビッグ
- ビッグデータ
- ビルド
- ビルダー
- ビルダー
- 建物
- 内蔵
- ビジネス
- ビジネス・ツー・ビジネス
- 呼ばれます
- 呼び出し
- 取得することができます
- カナダ
- 機能
- 場合
- 例
- カタログ
- CCPA
- 課題
- 挑戦
- 変更
- チェック
- 中国
- 選択する
- クラウド
- クラスタ
- 収集
- コレクション
- 注釈
- 企業
- 競争力のある
- コンプリート
- 複雑な
- 包括的な
- お問合せ
- 継続します
- コントロール
- controls
- コスト
- 可能性
- カバレッジ
- クローラー
- 作ります
- カスタム
- 顧客
- Customers
- データ
- データアクセス
- データエンジニア
- データ交換
- データレイク
- データ管理
- データプライバシー
- データ品質
- データサイエンティスト
- データ共有
- データ戦略
- データウェアハウス
- データウェアハウス
- データ駆動型の
- データベース
- データベースを追加しました
- データセット
- 十年
- 意思決定
- より深い
- 配信する
- 配信
- デルタ
- 展開する
- 記載された
- 詳細な
- 細部
- 開発者
- 開発
- 異なります
- 直接に
- 発見する
- 各
- 容易
- 効果的な
- 効果的に
- エンパワーメント
- 可能
- 有効にする
- 奨励する
- 端から端まで
- エンジニア
- エンジニア
- 強化された
- 強化
- 確保
- 確保する
- 環境
- エーテル(ETH)
- EU
- さらに
- イベント
- イベント
- あらゆる
- 交換
- 興奮した
- 既存の
- 拡大
- 体験
- 探る
- 探る
- 表現
- エキス
- 家族
- 速いです
- 特徴
- 特徴
- フィードバック
- 少数の
- フィールド
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フォーカス
- フォロー中
- 形成
- フォワード
- Foundation
- フレームワーク
- から
- 完全に
- 機能性
- さらに
- GDPR
- 生成
- 取得する
- 受け
- 世界
- 行く
- ガバナンス
- 助成金
- 大きい
- グループ
- 成長
- ハンドリング
- ハッピー
- ハード
- 健康
- 耳
- 助けます
- 助け
- ことができます
- history
- ハイブ
- 希望
- HOURS
- 認定条件
- しかしながら
- HTML
- HTTPS
- IAM
- アイデンティティ
- 実装
- 重要
- 改善
- 向上させる
- 改善
- in
- その他の
- 含ま
- 含めて
- 増加
- ますます
- info
- 情報
- 洞察力
- 洞察
- 統合された
- 統合
- 統合
- 興味がある
- 導入
- 導入
- 招待
- IT
- Jobs > Create New Job
- 旅
- キープ
- キー
- 湖
- 最新の
- 打ち上げ
- リーダー
- LEARN
- 学習
- レベル
- ライセンス
- ライセンス供与
- ライセンシング
- 稲妻
- ライトニングスピード
- 負荷
- 見て
- 機械
- 機械学習
- 製
- メイン
- 作る
- 作成
- 管理します
- マネージド
- 管理
- マネージャー
- 多くの
- 方法
- メソッド
- ML
- モード
- モデル
- モダン
- モジュール
- モニター
- 他には?
- 最も
- の試合に
- 名
- ネイティブ
- 必要
- ニーズ
- 新作
- 新機能
- ノートPC
- 通知
- 11月
- 新しい
- 義務
- 提供
- オファー
- 新人研修
- ONE
- オープンソース
- 業務執行統括
- 機会
- 組織
- 組織
- その他
- 自分の
- 所有者
- 部
- パートナー
- PBS
- 許可
- パーミッション
- ペタバイト
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- お願いします
- ポリシー
- 人気
- ポートフォリオ
- 可能
- ポスト
- 準備
- PLM platform.
- プレビュー
- 主に
- プライバシー
- ラボレーション
- 処理
- プロダクト
- プロダクトマネージャー
- 進捗
- 提供します
- 提供
- プロバイダ
- は、大阪で
- 提供
- 公表
- 目的
- 品質
- RAM
- RE
- 認識する
- 推奨する
- 軽減
- 縮小
- 地域
- 規制
- レギュレータ
- リリース
- 削除済み
- の提出が必要です
- 要件
- リソースを追加する。
- リソース
- REST
- レビュー
- リスク
- 堅牢な
- 職種
- 役割
- ラン
- ロシア
- セージメーカー
- 同じ
- 規模
- 予定の
- 科学
- 科学技術
- 科学者
- 科学者たち
- シームレス
- 二番
- 安全に
- 確保する
- シニア
- サービス
- サービス
- セッションに
- シェアする
- shared
- 株式
- シェアリング
- 簡単な拡張で
- So
- 溶液
- ソリューション
- 解決
- 一部
- ソース
- ソース
- スパーク
- 専門家
- 特定の
- スピード
- 費やした
- ステークホルダー
- スターバースト
- 開始
- 起動
- ステップ
- ストレージ利用料
- 保存され
- 戦略
- 流れ
- 研究
- 提出する
- 申し込む
- 加入者
- そのような
- まとめる
- 概要
- サポート
- サポート
- システム
- トーク
- ターゲット
- チーム
- チーム
- 技術的
- テクノロジー
- ソース
- アプリ環境に合わせて
- もの
- サードパーティ
- 介して
- 全体
- 時間
- 〜へ
- トロント
- touch
- 追跡する
- トレーニング
- 最適化の適用
- 変換
- トレンド
- 順番
- ui
- 根本的な
- わかる
- 統一
- ユニーク
- アンロック
- アップデイト
- つかいます
- 使用事例
- ユーザー
- 操作方法
- users
- 値
- バージョン
- 詳しく見る
- ビュー
- 倉庫
- 方法
- この試験は
- かどうか
- 誰
- 以内
- 仕事
- 働いていました
- ワークショップ
- ワークショップ
- 書き込み
- 年
- あなたの
- ユーチューブ
- ゼファーネット