Amazonレッドシフト は、標準 SQL を使用してすべてのデータを簡単かつ費用対効果の高い方法で分析できる、高速でスケーラブルで安全なフルマネージド データ ウェアハウスです。 アマゾンレッドシフト データ共有 お客様は、XNUMX つの Amazon Redshift クラスター内のトランザクション的に一貫性のあるライブ データを、別の Amazon Redshift クラスターとアカウントやリージョン全体で安全に共有できます。クラスター間でデータをコピーまたは移動する必要はありません。
Amazon Redshift データ共有が最初に開始されたのは 2021月XNUMX日 XNUMX:XNUMX、クロスアカウント データ共有のサポートが追加されました。 August 2021. リージョン間のサポートは、 2月2022. これにより、同じ AWS アカウント、異なるアカウント、または異なるリージョン内の Redshift クラスター間でデータを共有するための完全な柔軟性と俊敏性が提供されます。
Amazon Redshift Data Sharing は、Amazon Redshift のデプロイ アーキテクチャをハブスポークのデータ メッシュ モデルに根本的に再定義するために使用され、パフォーマンス SLA をより適切に満たし、ワークロードの分離を提供し、グループ間分析を実行し、新しいユースケースを簡単にオンボードし、最も重要なことはすべてを実行します。これにより、データの移動とデータのコピーの複雑さがなくなります。 データ共有の展開中に最もよく聞かれる質問には、「コンシューマー クラスターとプロデューサー クラスターはどのくらいの大きさが必要ですか?」、および「ワークロードの分離で最高のコスト パフォーマンスを得るにはどうすればよいですか?」などがあります。 データ サイズ、取り込み速度、クエリ パターン、メンテナンス アクティビティなどのワークロードの特性がデータ共有のパフォーマンスに影響を与える可能性があるため、コンシューマー クラスターとプロデューサー クラスターの両方のサイズを調整して、パフォーマンスを最大化し、コストを最小化するための継続的な戦略を実装する必要があります。 この投稿では、特定のワークロードに基づいて最高の価格パフォーマンスを得るためにプロデューサー クラスターとコンシューマー クラスターのサイズを決定するのに役立つ段階的なアプローチを提供します。
一般消費者向けサイジング ガイダンス
次の手順は、プロデューサー クラスターとコンシューマー クラスターのサイズを決定するための一般的な戦略を示しています。 これを出発点として使用し、それに応じて変更して、特定のユース ケース シナリオに対応できます。
プロデューサー クラスターのサイズを設定する
SLA を満たすために必要なパフォーマンスが得られるように、プロデューサー クラスターのサイズを適切に設定する必要があります。 Amazon Redshift コンソールからサイジング計算機を利用して、データのサイズとクエリの特性に基づいてプロデューサー クラスターの推奨事項を取得できます。 探す 私が選ぶのを手伝ってください RA3 ノード タイプをサポートする AWS リージョンのコンソールで、このサイズ計算ツールを使用します。 これは開始するための最初の推奨事項にすぎないことに注意してください。最適な価格パフォーマンスを得るには、初期サイズのクラスターで完全なワークロードを実行してテストし、それに応じてクラスターのサイズを柔軟に変更する必要があります。
初期コンシューマ クラスタのサイズとセットアップ
コンピューティングのニーズに基づいて、コンシューマー クラスターのサイズを常に調整する必要があります。 開始する XNUMX つの方法は、上記のプロデューサー クラスターと同様の一般的なクラスター サイズ設定ガイドに従うことです。
Amazon Redshift データ共有のセットアップ
プロデューサー クラスターとコンシューマー クラスターの両方をセットアップしたら、プロデューサーからコンシューマーへのデータ共有をセットアップします。 これを参照してください 役職 データ共有の設定方法については、こちらをご覧ください。
最初のコンシューマ クラスタでコンシューマのみのワークロードをテストする
新しい初期コンシューマ クラスタでコンシューマのみのワークロードをテストします。 これは、ETL ツール、BI アプリケーション、SQL クライアントなどのコンシューマー アプリケーションを新しいコンシューマー クラスターにポイントし、ワークロードを再実行して要件に対するパフォーマンスを評価することで実行できます。
異なるコンシューマ クラスタ構成でコンシューマのみのワークロードをテストする
初期サイズのコンシューマー クラスターがワークロードのパフォーマンス要件を満たしているか上回っている場合は、このクラスター構成を引き続き使用するか、より小さな構成でテストして、コストをさらに削減しながら必要なパフォーマンスを得ることができるかどうかを確認できます。
一方、初期サイズのコンシューマー クラスターがワークロードのパフォーマンス要件を満たしていない場合は、より大きな構成をさらにテストして、SLA を満たす構成を取得できます。
経験則として、ワークロードの要件を満たすまで、コンシューマー クラスターのサイズを初期クラスター構成の 2 倍ずつ段階的に拡大します。
テストする構成を計画したら、エラスティック サイズ変更を使用して、最初のクラスターをターゲット クラスター構成に合わせてサイズ変更します。 エラスティック サイズ変更が完了したら、同じワークロード テストを実行し、SLA に対するパフォーマンスを評価します。 コストパフォーマンスの目標を満たす構成を選択してください。
異なるプロデューサー クラスター構成でプロデューサーのみのワークロードをテストする
コンシューマー ワークロードを最適な価格パフォーマンスでコンシューマー クラスターに移動すると、プロデューサーのコンピューティング リソースを削減してコストを節約できる可能性があります。
これを実現するには、元のプロデューサー サイズの 1/2 倍でプロデューサーのみのワークロードを再実行し、ワークロードのパフォーマンスを評価します。 結果に応じてクラスターのサイズを上下に変更し、ワークロードのパフォーマンス要件を満たす最小限のプロデューサー構成を選択します。
時間をかけて完全なワークロードを実行した後に再評価する
Amazon Redshift は進化を続け、パフォーマンスとスケーラビリティの改善が継続的にリリースされるため、データ共有のパフォーマンスは向上し続けます。 さらに、多数の変数がデータ共有クエリのパフォーマンスに影響を与える可能性があります。 以下はほんの一例です。
- 取り込み速度とデータ変更量
- クエリのパターンと特徴
- ワークロードの変化
- 並行性
- バキューム、分析、ATO などのメンテナンス アクティビティ
これが、クラスターの構成から新しい最高の価格パフォーマンスを得るために、特に完全なワークロードのデプロイ後に、上記の戦略を使用してプロデューサー クラスターとコンシューマー クラスターのサイズを再評価する必要がある理由です。
自動サイジング ソリューション
複数のツールやアプリケーション (BI、インジェストまたはストリーミング、ETL、データ サイエンス) など、より複雑なアーキテクチャが環境に含まれている場合、上記の一般的なガイダンスからの手動の方法を使用することは現実的ではない可能性があります。 代わりに、このセクションのソリューションを活用して、テスト コンシューマー クラスターとプロデューサー クラスターで実稼働クラスターからワークロードを自動的に再生し、パフォーマンスを評価できます。
シンプル リプレイ ユーティリティ 最適な価格パフォーマンスを得るために適切なプロデューサー クラスターとコンシューマー クラスターのサイズを取得するプロセスをガイドする自動化されたソリューションとして活用されます。
Simple Replay は、what-if 分析を実行し、さまざまなシナリオでワークロードがどのように実行されるかを評価するためのツールです。 たとえば、このツールを使用して、RA3 などの新しいインスタンス タイプで実際のワークロードをベンチマークしたり、新しい機能を評価したり、さまざまなクラスター構成を評価したりできます。 また、COPY および UNLOAD ステートメントを使用して、データ インジェストおよびエクスポート パイプラインを再生するための拡張サポートも含まれています。 ワークロードを開始して再生するには、次の場所からツールをダウンロードします。 Amazon RedshiftGitHubリポジトリ.
ここでは、ソースの本番クラスターからワークロード ログを抽出し、分離された環境でそれらを再生する手順について説明します。 これにより、これらの Amazon Redshift クラスターをシームレスに直接比較し、価格パフォーマンスの目標に最適なクラスター構成を選択できます。
次の図は、ソリューションアーキテクチャを示しています。
ソリューションウォークスルー
次の手順に従ってソリューションを実行し、コンシューマー クラスターとプロデューサー クラスターのサイズを決定します。
本番クラスターのサイジング
ワークロードの要件を満たすために必要なパフォーマンスを得るには、既存の実稼働クラスターのサイズを常に適切に設定する必要があります。 Amazon Redshift コンソールからサイジング計算機を利用して、データのサイズとクエリの特性に基づいて本番クラスターに関する推奨事項を取得できます。 探す 私が選ぶのを手伝ってください RA3 ノード タイプをサポートする AWS リージョンのコンソールで、このサイズ計算ツールを使用します。 これは、開始するための最初の推奨事項にすぎないことに注意してください。 初期サイズのクラスターで完全なワークロードの実行をテストし、それに応じてクラスターのサイズを柔軟に変更して、最高の価格パフォーマンスを得る必要があります。
分離するワークロードを特定する
元のクラスターでさまざまなワークロードが実行されている可能性がありますが、最初のステップは、分離したいビジネスにとって最も重要なワークロードを特定することです。 これは、新しいアーキテクチャがワークロードの要件を満たすことができるようにするためです。 この 役職 は、どのワークロードを分離できるかを判断するのに役立つ、データ共有ワークロード分離のユース ケースに関する優れたリファレンスです。
シンプルリプレイの設定
重要なワークロードがわかったら、次のことを行う必要があります。 監査ログを有効にする 上記で特定された重要なワークロードが実行されてクエリ アクティビティをキャプチャし、 Amazon Simple Storage Service(Amazon S3)。 監査ログが Amazon S3 に配信されるまでに最大 XNUMX 時間かかる場合があることに注意してください。 監査ログが利用可能になったら、次に進みます。 シンプルリプレイの設定 その後 エキス 監査ログからの重要なワークロード。 ワークロードが特定の時間帯 (午前 9 時から午前 11 時など) に実行される場合、start_time と end_time をパラメータとして使用して重要なワークロードを除外できます。 それ以外の場合、ログに記録されたすべてのアクティビティが抽出されます。
ベースライン ワークロード
本番スナップショットから復元して、プロデューサー クラスターと同じ構成でベースライン クラスターを作成します。 同じ構成で開始する目的は、分離された環境でパフォーマンスのベースラインを設定することです。
ベースライン クラスタが利用可能になると、 リプレイ ベースライン クラスタで抽出されたワークロード。 このリプレイからの出力は、異なるコンシューマー構成での後続のリプレイと比較するために使用されるベースラインになります。
最初のプロデューサーとコンシューマーのテスト クラスターをセットアップする
本番スナップショットから復元して、同じ本番クラスター構成でプロデューサー クラスターを作成します。 前のガイダンスから推奨される初期コンシューマー サイズでコンシューマー クラスターを作成します。 さらに、生産者と消費者の間でデータ共有を設定します。
最初のプロデューサーとコンシューマーでワークロードを再生する
リプレイ 初期サイズのプロデューサー クラスターでのプロデューサーのみのワークロード。 これは、「Exclude」フィルター パラメーターを使用して、コンシューマー クエリを除外することで実現できます。たとえば、コンシューマー クエリを実行するユーザーなどです。
リプレイ 初期サイズのコンシューマー クラスターでのコンシューマーのみのワークロード。 これは、"Include" フィルター パラメーターを使用して、コンシューマー クエリ (コンシューマー クエリを実行するユーザーなど) を除外することで実現できます。
ベースラインおよびワークロードのパフォーマンス要件に対して、これらのリプレイのパフォーマンスを評価します。
さまざまな構成でコンシューマー ワークロードを再生する
初期サイズのコンシューマー クラスターがワークロードのパフォーマンス要件を満たしているか、それを上回っている場合は、このクラスター構成を使用するか、次の手順に従って小規模な構成でテストし、コストをさらに削減しながら必要なパフォーマンスを得ることができるかどうかを確認できます。
初期のコンシューマ パフォーマンスの結果をワークロード要件と比較します。
- 結果がワークロードのパフォーマンス要件を超える場合は、コンシューマ クラスタのサイズを 1/2 倍から徐々に減らし、リプレイを再試行してパフォーマンスを評価し、ワークロードを満たすまで、結果に応じてサイズを増減できます。要件。 目的は、パフォーマンス要件に満足できるスイート スポットを取得し、可能な限り低価格を実現することです。
- 結果がワークロードのパフォーマンス要件を満たさない場合は、元のサイズの 2 倍から始めて段階的にクラスターのサイズを増やし、リプレイを再試行し、ワークロードのパフォーマンス要件を満たすまでパフォーマンスを評価できます。
さまざまな構成でプロデューサーのワークロードを再生する
ワークロードをコンシューマ クラスタに分割すると、プロデューサー クラスタの負荷が軽減されます。また、プロデューサー クラスタのワークロード パフォーマンスを評価して、サイズを縮小してコストを節約する機会を探す必要があります。
この手順は、コンシューマ リプレイに似ています。 エラスティックは、元のサイズの 1/2 倍から段階的にプロデューサー クラスターのサイズを変更し、プロデューサーのみのワークロードを再生してパフォーマンスを評価し、ワークロードのパフォーマンス要件を満たすまでさらにサイズを変更します。 目的は、ワークロードのパフォーマンス要件に満足できるスイート スポットを取得し、可能な限り低価格を実現することです。 目的のプロデューサー クラスター構成ができたら、コンシューマー クラスターでリプレイ コンシューマー ワークロードを再試行して、パフォーマンスがプロデューサー クラスター構成の変更によって影響を受けていないことを確認します。 最後に、プロデューサーとコンシューマーの両方のワークロードを同時に再生して、完全なワークロード シナリオでパフォーマンスが達成されるようにする必要があります。
時間をかけて完全なワークロードを実行した後に再評価する
一般的なガイダンスと同様に、クラスターの構成から新しい最高の価格パフォーマンスを得るために、特に完全なワークロードのデプロイ後に、前の戦略を使用してプロデューサー クラスターとコンシューマー クラスターのサイジングを再評価する必要があります。
クリーンアップ
AWS アカウントでこれらのサイジング テストを実行すると、新しい Amazon Redshift クラスターがプロビジョニングされるため、コストに影響する可能性があります。リザーブド インスタンスがない場合、オンデマンド インスタンスとして課金される可能性があります。 評価が完了したら、コストを節約するために Amazon Redshift クラスターを削除することをお勧めします。 クラスターが使用されていないときは、クラスターを一時停止することもお勧めします。
Amazon Redshift とデータ共有のベスト プラクティスの適用
プロデューサー クラスターとコンシューマー クラスターの両方を適切にサイジングすることで、Amazon Redshift のデプロイから最高のコスト パフォーマンスを引き出すための良いスタートを切ることができます。 ただし、パフォーマンスを最大化できる要因はサイジングだけではありません。 この場合、ベスト プラクティスを理解し、それに従うことも同様に重要です。
一般的な Amazon Redshift パフォーマンス チューニングのベスト プラクティスは、データ共有のデプロイに適用できます。 展開がこれらに従っていることを確認してください ベストプラクティス.
パフォーマンスを最大化するために従うべきデータ共有固有のベスト プラクティスが多数あります。 これを参照してください 役職 のガイドをご参照ください。
まとめ
プロデューサー クラスターとコンシューマー クラスターのサイズについて、万能の推奨事項はありません。 ワークロードとパフォーマンス SLA によって異なります。 この投稿の目的は、特定のデータ共有ワークロードのパフォーマンスを評価して、コンシューマーとプロデューサーの両方のクラスター サイズを決定し、最高のコスト パフォーマンスを得る方法についてのガイダンスを提供することです。 最高の価格パフォーマンスを得るために、本番環境に採用する前に、単純なリプレイを使用してプロデューサーとコンシューマーでワークロードをテストすることを検討してください。
著者について
BPヤウ AWSのシニアプロダクトマネージャーです。 彼は、顧客が大規模なデータを処理するためのビッグデータソリューションを設計するのを支援することに情熱を注いでいます。 AWSの前は、Amazon.comサプライチェーン最適化テクノロジーがOracleデータウェアハウスをAmazon Redshiftに移行し、AWSテクノロジーを使用して次世代のビッグデータ分析プラットフォームを構築するのを支援しました。
シダント・ムラリダール AWS のプリンシパル テクニカル アカウント マネージャーです。 彼は、ワークロードを AWS で実行する大企業の顧客と協力しています。 彼は顧客と協力し、クラウドへの移行において大規模なコスト、信頼性、パフォーマンス、運用上の卓越性を実現するワークロードの設計を支援することに情熱を注いでいます。 彼はデータ分析にも強い関心を持っています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/big-data/how-to-get-best-price-performance-from-your-amazon-redshift-data-sharing-deployment/
- 100
- a
- 私たちについて
- 上記の.
- それに応じて
- アカウント
- 達成する
- 達成
- 越えて
- 活動
- 追加されました
- 採用
- 後
- に対して
- すべて
- ことができます
- 常に
- Amazon
- Amazon.com
- 量
- 分析
- 分析論
- 分析します
- &
- 別の
- 適用可能な
- アプローチ
- 建築
- 監査
- 自動化
- 自動的に
- 利用できます
- AWS
- ベース
- ベースライン
- なぜなら
- ベンチマーク
- BEST
- ベストプラクティス
- より良いです
- の間に
- ビッグ
- ビッグデータ
- ビルド
- ビジネス
- キャプチャー
- 場合
- 例
- 一定
- チェーン
- 変更
- 特性
- 特性
- 荷担した
- クライアント
- クラウド
- クラスタ
- COM
- 快適
- コマンドと
- 比較します
- 比較
- コンプリート
- 記入済みの
- 複雑な
- 複雑さ
- 計算
- 導電性
- 検討
- 整合性のある
- 領事
- consumer
- 続ける
- 続ける
- 連続的な
- 費用
- コスト
- 可能性
- 作ります
- 重大な
- Customers
- データ
- データ分析
- データサイエンス
- データ共有
- 配信
- 依存
- 展開
- 細部
- 決定する
- 異なります
- 直接
- ドント
- ダウン
- ダウンロード
- 間に
- 簡単に
- どちら
- 可能
- 強化された
- Enterprise
- 環境
- 平等に
- 特に
- エーテル(ETH)
- 評価する
- 評価
- 進化
- 例
- 例
- 超え
- 優秀
- 既存の
- export
- エキス
- 失敗
- スピーディー
- 実行可能な
- 特徴
- filter
- 最後に
- 名
- 柔軟性
- フォロー中
- 次
- から
- フル
- 根本的に
- さらに
- さらに
- 利得
- 一般に
- 世代
- 取得する
- 受け
- GitHubの
- 与える
- Go
- 良い
- でログイン
- ガイド
- 助けます
- 助けました
- 助け
- HOURS
- 認定条件
- How To
- しかしながら
- HTTPS
- 特定され
- 識別する
- 影響
- 影響を受けた
- 実装
- 意義
- 重要
- 改善
- 改善
- in
- 含ま
- 増える
- 初期
- 当初
- を取得する必要がある者
- 関心
- 関係する
- 分離された
- 分離
- IT
- 旅
- キーン
- 知っている
- 大
- より大きい
- 打ち上げ
- ことができます
- 活用します
- ライブ
- 負荷
- 見て
- メンテナンス
- make
- マネージャー
- マニュアル
- 最大化します
- 大会
- ミーツ
- 方法
- かもしれない
- 移動します
- 最小
- 他には?
- 最も
- 運動
- の試合に
- 必要
- 必要
- ニーズ
- 新作
- 次の
- 多数の
- 時
- オンボード
- ONE
- オペレーショナル
- 機会
- 最適化
- 最適な
- オラクル
- オリジナル
- その他
- さもないと
- パラメーター
- パラメータ
- 情熱的な
- パターン
- 実行する
- パフォーマンス
- 実行する
- 期間
- 計画
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 可能
- ポスト
- プラクティス
- 前
- ブランド
- 校長
- プロセス
- プロデューサー
- プロダクト
- プロダクトマネージャー
- 生産
- 正しく
- 提供します
- は、大阪で
- 目的
- 質問
- レート
- 推奨する
- おすすめ
- 推奨される
- 減らします
- 電話代などの費用を削減
- 地域
- リリース
- 信頼性
- 要件
- 予約済み
- リソースを追加する。
- 復元する
- 結果
- 結果
- ルール
- ラン
- ランニング
- 同じ
- Save
- スケーラビリティ
- ド電源のデ
- 規模
- シナリオ
- 科学
- シームレス
- セクション
- 安全に
- しっかりと
- Seek
- サービス
- シェアする
- シェアリング
- すべき
- 表示する
- 作品
- 同様の
- 簡単な拡張で
- サイズ
- サイズ
- より小さい
- Snapshot
- 溶液
- ソリューション
- 一部
- ソース
- 特定の
- split
- Spot
- 標準
- start
- 開始
- 起動
- 文
- 手順
- ステップ
- まだ
- ストレージ利用料
- 店舗
- 戦略
- ストリーミング
- それに続きます
- 供給
- サプライチェーン
- サプライチェーンの最適化
- サポート
- 甘い
- 取る
- ターゲット
- 技術的
- テクノロジー
- test
- テスト
- テスト
- ソース
- アプリ環境に合わせて
- 三
- 介して
- 時間
- 〜へ
- ツール
- 豊富なツール群
- 理解する
- つかいます
- 使用事例
- ユーザー
- この試験は
- which
- 誰
- 意志
- 無し
- ワーキング
- 作品
- あなたの
- ゼファーネット