Snowflake Integration を使用して相分類のためのトレーニングと検証データセットを準備し、Amazon SageMaker Canvas を使用してトレーニングする

プラトン再発行

フォロワー： 0

この投稿は、bpx Energy の Thatcher Thornberry との共同執筆です。

相分類は、坑井位置の地質データから岩層をセグメント化するプロセスです。掘削中に、深さに依存する地質情報を含むワイヤーラインログが取得されます。地質学者は、このログデータを分析し、さまざまなタイプのログデータから対象となる可能性のある相の深さの範囲を決定するために配置されます。これらの領域を正確に分類することは、その後の掘削プロセスにとって非常に重要です。

AI と機械学習 (ML) を使用した相分類は、多くの石油メジャーにとってますます人気のある調査分野となっています。大手石油会社のデータサイエンティストやビジネスアナリストの多くは、相似分類などの重要なタスクについて高度な ML 実験を実行するために必要なスキルセットを持っていません。これに対処するために、この問題に関してクラス最高の ML 分類モデルを簡単に準備してトレーニングする方法を示します。

この投稿では、主にすでに Snowflake を使用しているユーザーを対象として、相分類タスクのトレーニングデータと検証データの両方を、Snowflake からインポートする方法について説明します。スノーフレークに Amazon SageMaker キャンバスその後、3+ カテゴリ予測モデルを使用してモデルをトレーニングします。

ソリューションの概要

私たちのソリューションは、次の手順で構成されています。

ローカルマシンからSnowflakeにfacies CSVデータをアップロードします。この投稿では、次のデータを使用しますオープンソースの GitHub リポジトリ.
構成 AWS IDおよびアクセス管理 Snowflake の (IAM) ロールを作成し、Snowflake 統合を作成します。
Snowflake 資格情報のシークレットを作成します (オプションですが、推奨されます)。
Snowflake を Canvas に直接インポートします。
相分類モデルを構築します。
モデルを分析します。
マルチクラスモデルを使用してバッチ予測と単一予測を実行します。
トレーニングされたモデルを共有する Amazon SageMakerスタジオ.

前提条件

この投稿の前提条件は次のとおりです。

顔のCSVデータをSnowflakeにアップロードする

このセクションでは、XNUMX つのオープンソースデータセットを取得し、ローカルマシンから Snowflake データベースに直接アップロードします。そこから、Snowflake と Canvas の間に統合レイヤーを設定します。

ダウンロードトレーニングデータ.csv & validation_data_nofacies.csv ファイルをローカルマシンにコピーします。保存した場所をメモしておきます。
正しい Snowflake 資格情報を持ち、Snowflake CLI デスクトップアプリがインストールされていることを確認すると、フェデレーションを行うことができます。詳細については、を参照してください。 SnowSQL にログインする.
作業する適切な Snowflake ウェアハウスを選択します。この例では、 COMPUTE_WH:

USE WAREHOUSE COMPUTE_WH;

チュートリアルの残りの部分で使用するデータベースを選択します。

use demo_db;

Snowflake テーブルにアクセスまたはロードするためのステージングされたデータのセットを記述する名前付きファイル形式を作成します。

これは、Snowflake CLI または Web アプリケーション上の Snowflake ワークシートで実行できます。この投稿では、Web アプリケーションで SnowSQL クエリを実行します。見るワークシートの使用を開始する Snowflake Web アプリケーションでワークシートを作成する手順については、「Snowflake Web アプリケーションでワークシートを作成する手順」を参照してください。

CREATE ステートメントを使用して、Snowflake にテーブルを作成します。

次のステートメントは、現在のスキーマまたは指定されたスキーマに新しいテーブルを作成します (または既存のテーブルを置き換えます)。

データ型とその表示順序が正しく、以前にダウンロードした CSV ファイルの内容と一致していることが重要です。矛盾している場合は、後でデータをコピーしようとしたときに問題が発生します。

検証データベースに対しても同じことを行います。

スキーマはトレーニングデータとは少し異なることに注意してください。もう一度、データ型と列または特徴の順序が正しいことを確認してください。

CSV データファイルをローカルシステムから Snowflake ステージング環境にロードします。
- Windows OS のステートメントの構文は次のとおりです。
```
put file://D:path-to-file.csv @DB_Name.PUBLIC.%table_name;
```
- Mac OS のステートメントの構文は次のとおりです。
```
put file:///path-to-file.csv @DB_NAME.PUBLIC.%table_name;
```

次のスクリーンショットは、SnowSQL CLI 内からのコマンドと出力の例を示しています。

データをターゲットの Snowflake テーブルにコピーします。

ここでは、前に作成したターゲットテーブルにトレーニング CSV データを読み込みます。トレーニングと検証の両方の CSV ファイルに対してこれを実行し、それぞれをトレーニングテーブルと検証テーブルにコピーする必要があることに注意してください。

SELECT クエリを実行して、データがターゲットテーブルにロードされたことを確認します (これはトレーニングデータと検証データの両方に対して実行できます)。

select * from TRAINING_DATA

Snowflake IAM ロールを構成し、Snowflake 統合を作成する

このセクションの前提条件として、次の方法については Snowflake の公式ドキュメントに従ってください。Amazon S3 にアクセスするための Snowflake ストレージ統合の設定.

Snowflake アカウントの IAM ユーザーを取得する

Snowflake ストレージ統合を正常に構成したら、次のコマンドを実行します。 DESCRIBE INTEGRATION Snowflake アカウント用に自動的に作成された IAM ユーザーの ARN を取得するコマンド:

DESC INTEGRATION SAGEMAKER_CANVAS_INTEGRATION;

出力から次の値を記録します。

STORAGE_AWS_IAM_USER_ARN – Snowflake アカウント用に作成された IAM ユーザー
STORAGE_AWS_EXTERNAL_ID – 信頼関係を確立するために必要な外部 ID

IAM ロールの信頼ポリシーを更新する

次に、信頼ポリシーを更新します。

IAMコンソールで、役割ナビゲーションペインに表示されます。
作成した役割を選択します。
ソフトウェア設定ページで、下図のように 信頼関係 タブを選択 信頼関係を編集する.
次のコードに示すように、前の手順で記録した DESC STORAGE INTEGRATION 出力値を使用してポリシードキュメントを変更します。

{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "AWS": "<snowflake_user_arn>" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "sts:ExternalId": "<snowflake_external_id>" } } } ]
}

選択する 信頼ポリシーの更新.

Snowflake で外部ステージを作成する

自分のアカウントの S3 バケットから Snowflake にデータをロードするために、Snowflake 内の外部ステージを使用します。このステップでは、作成したストレージ統合を参照する外部 (Amazon S3) ステージを作成します。詳細については、次を参照してください。 S3 ステージの作成.

これには、 CREATE_STAGE スキーマに対する権限と、ストレージ統合に対する USAGE 権限。次のステップのコードに示すように、これらの権限をロールに付与できます。

を使用してステージを作成します。 CREATE_STAGE 外部ステージと S3 バケットとプレフィックスのプレースホルダーを含むコマンド。ステージは、次の名前の名前付きファイル形式オブジェクトも参照します。 my_csv_format:

grant create stage on schema public to role <iam_role>;
grant usage on integration SAGEMAKER_CANVAS_INTEGRATION to role <iam_role_arn>;
create stage <external_stage>
storage_integration = SAGEMAKER_CANVAS_INTEGRATION
url = '<s3_bucket>/<prefix>'
file_format = my_csv_format;

Snowflake 資格情報のシークレットを作成する

Canvas を使用すると、 AWSシークレットマネージャー Snowflake にアクセスするための Secret または Snowflake アカウント名、ユーザー名、およびパスワード。 Snowflake アカウント名、ユーザー名、およびパスワードのオプションを使用する場合は、データソースの追加について説明する次のセクションに進んでください。

Secrets Manager シークレットを手動で作成するには、次の手順を実行します。

Secrets Managerコンソールで、 新しい秘密を保存する.
シークレットタイプを選択選択する その他の種類の秘密.
シークレットの詳細をキーと値のペアとして指定します。

キーの名前は大文字と小文字が区別され、小文字である必要があります。

必要に応じて、プレーンテキストオプションを使用して、シークレット値を JSON として入力できます。

{ "username": "<snowflake username>", "password": "<snowflake password>", "accountid": "<snowflake account id>"
}

選択する Next.
秘密の名前、プレフィックスを追加します AmazonSageMaker (たとえば、私たちの秘密は AmazonSageMaker-CanvasSnowflakeCreds).
タグセクションに、キー SageMaker と値 true のタグを追加します。

選択する Next.
残りのフィールドはオプションです。選ぶ Next 選択できるようになるまで オンラインショップ 秘密を保存します。
シークレットを保存すると、Secrets Manager コンソールに戻ります。
作成したシークレットを選択し、シークレット ARN を取得します。
後で Canvas データソースを作成するときに使用できるように、これを好みのテキストエディターに保存します。

Snowflake を Canvas に直接インポートする

相似データセットを Canvas に直接インポートするには、次の手順を実行します。

SageMakerコンソールで、 Amazon SageMaker キャンバス ナビゲーションペインに表示されます。
ユーザープロファイルを選択し、 オープンキャンバス.
キャンバスのランディングページで、 データセット ナビゲーションペインに表示されます。
選択する インポート.

ソフトウェアの制限をクリック スノーフレーク 下の画像ですぐに 「接続を追加」.
以前に作成した Snowflake シークレットの ARN、ストレージ統合名 (SAGEMAKER_CANVAS_INTEGRATION)、および選択した一意の接続名。
選択する 接続を追加.

すべてのエントリが有効な場合は、接続に関連付けられているすべてのデータベースがナビゲーションペインに表示されます (次の例を参照してください)。 NICK_FACIES).

選択する TRAINING_DATA テーブルを選択し、 データセットのプレビュー.

データに満足したら、データビジュアライザーでカスタム SQL を編集できます。

選択する SQLで編集.
Canvas にインポートする前に、次の SQL コマンドを実行します。 (これは、データベースが次のように呼ばれることを前提としています。 NICK_FACIES。この値をデータベース名に置き換えます。)

SELECT "FACIES", "FORMATION", "WELL_NAME", "DEPTH", "GR", "ILD_LOG10", "DELTAPHI", "PHIND", "PE", "NM_M", "RELPOS" FROM "NICK_FACIES"."PUBLIC"."TRAINING_DATA";

次のスクリーンショットのようなものが表示されます。 インポートプレビュー のセクションから無料でダウンロードできます。

プレビューに満足したら、選択してください インポート日.

適切なデータ名を選択し、一意で長さが 32 文字未満であることを確認してください。
次のコマンドを使用して、前と同じ方法で検証データセットをインポートします。

SELECT "FORMATION", "WELL_NAME", "DEPTH", "GR", "ILD_LOG10", "DELTAPHI", "PHIND", "PE", "NM_M", "RELPOS" FROM "NICK_FACIES"."PUBLIC"."VALIDATION_DATA";

相分類モデルを構築する

顔相分類モデルを構築するには、次の手順を実行します。

選択する Models ナビゲーションペインで、を選択します ニューモデル.
モデルに適切な名前を付けます。
ソフトウェア設定ページで、下図のように選択タブで、最近インポートされたトレーニングデータセットを選択し、次に データセットを選択.
ソフトウェア設定ページで、下図のように 完成に向けてあなたの背中を押してくれる、執筆のための持続可能で本物のモーメンタムを作り出す。 タブをドロップして、 WELL_NAME コラム。

このようにするのは、ウェル名自体は ML モデルにとって有用な情報ではないためです。これらは、ウェル自体を区別するのに役立つと考えられる任意の名前にすぎません。特定の井戸に付ける名前は、ML モデルとは無関係です。

ターゲット列として FACIES を選択します。
コメントを残す モデルタイプ as 3 つ以上のカテゴリの予測.
データを検証します。
選択する 標準ビルド.

モデルを構築する直前のページは、次のスクリーンショットのように見えるはずです。

あなたが選んだ後 標準ビルド、モデルは分析段階に入ります。予想されるビルド時間が提供されます。これで、このウィンドウを閉じ、Canvas からログアウトし (料金の発生を避けるため)、後で Canvas に戻ることができます。

相分類モデルを分析する

モデルを分析するには、次の手順を実行します。

フェデレーションをキャンバスに戻します。
以前に作成したモデルを見つけて、選択します 詳しく見る、を選択します解析.
ソフトウェア設定ページで、下図のように概要タブでは、個々の特徴がモデルの出力に与えている影響を確認できます。
右側のペインでは、特定の特徴 (X 軸) が各相クラスの予測 (Y 軸) に与えている影響を視覚化できます。

これらのビジュアライゼーションは、選択した機能に応じて変化します。 9 つのクラスと 10 の機能すべてを循環してこのページを探索することをお勧めします。

ソフトウェア設定ページで、下図のように得点タブでは、予測された相と実際の相の分類を確認できます。
選択する 高度な指標 F1 スコア、平均精度、適合率、再現率、AUC を表示します。
繰り返しになりますが、さまざまなクラスをすべて見ることをお勧めします。
選択する ダウンロード イメージをローカルマシンにダウンロードします。

次の画像では、F1 スコアなどのさまざまな高度なメトリクスを確認できます。統計分析では、F1 スコアは分類モデルの適合率と再現率のバランスを表し、次の方程式を使用して計算されます。 2*((Precision * Recall)/ (Precision + Recall)).

マルチクラス相分類モデルを使用してバッチ予測と単一予測を実行する

予測を実行するには、次の手順を実行します。

選択する 単一の予測 必要に応じて特徴値を変更し、ページの右側に返される相分類を取得します。

その後、予測チャートの画像をクリップボードにコピーしたり、予測を CSV ファイルにダウンロードしたりできます。

選択する バッチ予測 それから、 データセットを選択 をクリックして、以前にインポートした検証データセットを選択します。
選択する 予測を生成する.

にリダイレクトされます 予測する ページ、 Status: 読むつもりです 予測の生成 数秒間。

予測が返された後、予測の横にあるオプションメニュー (縦に XNUMX つあるドット) を選択して、予測をプレビュー、ダウンロード、または削除できます。

以下は予測プレビューの例です。

Studio でトレーニング済みモデルを共有する

モデルの最新バージョンを別の Studio ユーザーと共有できるようになりました。これにより、データサイエンティストはモデルを詳細にレビューし、テストし、精度を向上させる可能性のある変更を加え、更新されたモデルを共有することができます。

ML ペルソナのワークフロー間の重要な違いを考慮すると、Studio 内でより技術的なユーザーと作業を共有できる機能は Canvas の重要な機能です。ここでは、異なる技術的能力を持つ部門を超えたチーム間のコラボレーションに重点が置かれていることに注目してください。

選択する シェアする モデルを共有します。

共有するモデルのバージョンを選択します。
モデルを共有する Studio ユーザーを入力します。
オプションのメモを追加します。
選択する シェアする.

まとめ

この投稿では、Amazon SageMaker Canvas で数回クリックするだけで、Snowflake からデータを準備してインポートし、データセットを結合し、推定精度を分析し、影響のある列を検証し、最高のパフォーマンスのモデルをトレーニングし、新しい個人を生成する方法を説明しました。またはバッチ予測。皆様からのフィードバックをお待ちしており、ML を使用してさらに多くのビジネス上の問題を解決できるようお手伝いいたします。独自のモデルを構築するには、次を参照してください。 AmazonSageMakerCanvasの使用を開始する.

著者について

ニック・マッカーシー は、AWS プロフェッショナルサービスチームの機械学習エンジニアです。彼は、ヘルスケア、金融、スポーツ、通信、エネルギーなどのさまざまな業界の AWS クライアントと協力して、AI/ML の使用を通じてビジネス成果を加速させてきました。 bpx データサイエンスチームと協力して、Nick は最近、Amazon SageMaker での bpx の機械学習プラットフォームの構築を完了しました。

サッチャー・ソーンベリー bpx Energy の機械学習エンジニアです。彼は、Amazon SageMaker で同社の中核となるデータサイエンスプラットフォームを開発および保守することで、bpx のデータサイエンティストをサポートしています。自由時間には、個人的なコーディングプロジェクトをハッキングしたり、妻と屋外で時間を過ごすのが大好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/prepare-training-and-validation-dataset-for-facies-classification-using-snowflake-integration-and-train-using-amazon-sagemaker-canvas/

タイムスタンプ： 2023 年 5 月 17 日

タイムスタンプ： 2023 年 4 月 5 日

プラトン再発行

Refinitiv Data Library、AWS サービス、および Amazon SageMaker を使用してリアルタイムのニュースストリームを充実させる

新しい Amazon Kendra Alfresco コネクタを使用して Alfresco コンテンツにインデックスを付けます | アマゾンウェブサービス

Amazon SageMaker Inference Recommender を使用した改善された ML モデルのデプロイ

イノベーションのロックを解除: AWS と Anthropic が一緒に生成 AI の限界を押し広げます |アマゾンウェブサービス

Amazon Kendra のおすすめの結果を使用して検索コンテンツを宣伝する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー