SageMaker Autopilot モデル品質レポートを使用したモデル評価メトリクスの自動生成

プラトン再発行

フォロワー： 0

Amazon SageMakerオートパイロット特徴量エンジニアリング、トレーニング、チューニング、推論用の ML モデルのデプロイのステップを自動化することで、エンドツーエンドの機械学習 (ML) ワークフローを完了するのに役立ちます。 SageMaker Autopilot に表形式のデータセットと予測するターゲット属性を提供します。その後、SageMaker Autopilot が自動的にデータを探索し、トレーニング、調整、ランク付けを行い、最適なモデルを見つけます。最後に、ワンクリックでこのモデルを実稼働環境にデプロイして推論を行うことができます。

SageMaker Autopilot 実験の実行

データセット

を使用しております UCI の銀行マーケティングデータセット SageMaker Autopilot モデル品質レポートのデモを行います。このデータには、年齢、職業、婚姻状況などの顧客属性が含まれており、顧客が銀行に口座を開設するかどうかを予測するために使用されます。データセットでは、この口座を定期預金と呼んでいます。これにより、このケースは二項分類問題になり、予測は「はい」か「いいえ」のいずれかになります。 SageMaker Autopilot は、潜在的な顧客を最適に予測するために、当社に代わっていくつかのモデルを生成します。次に、SageMaker Autopilot のモデル品質レポートを調べます。 最高のモデル.

前提条件

SageMaker Autopilot 実験を開始するには、まずデータを Amazon シンプルストレージサービス (Amazon S3) バケット。トレーニングに使用するバケットとプレフィックスを指定します。バケットが SageMaker Autopilot 実験と同じリージョンにあることを確認してください。また、Identity and Access Management (IAM) ロール Autopilot に、Amazon S3 内のデータにアクセスするアクセス許可があることを確認する必要があります。

実験の作成

SageMaker Studio で SageMaker Autopilot 実験を作成するには、いくつかのオプションがあります。新しいランチャーを開くと、SageMaker Autopilot に直接アクセスできる場合があります。そうでない場合は、左側にある SageMaker リソースアイコンを選択できます。次に選択できるのは、 実験と試行 プルダウンメニューから

実験に名前を付けます。
Amazon S3 バケットとファイル名を選択して、データソースに接続します。
Amazon S3 内の出力データの場所を選択します。
データセットのターゲット列を選択します。この場合、はい/いいえを示すために「y」列をターゲットにしています。
SageMaker Autopilot でモデルエンドポイントを自動的にデプロイする場合は、オプションでエンドポイント名を指定します。
他の詳細設定はすべてデフォルトのままにして、 実験を作成.

実験が完了すると、SageMaker Studio で結果を確認できます。 SageMaker Autopilot は、トレーニングするさまざまなモデルの中から最適なモデルを提示します。さまざまなトライアルの詳細と結果を表示できますが、モデル品質レポートの使用を実証するために最適なモデルを使用します。

モデルを選択し、右クリックして モデルの詳細で開く.
モデルの詳細内で、性能タブ。これは、視覚化とプロットを通じてモデルのメトリクスを示します。
性能選択 パフォーマンスレポートをダウンロードする PDFとして。

SageMaker Autopilot モデル品質レポートの解釈

モデル品質レポートには、SageMaker Autopilot ジョブとモデルの詳細が要約されています。レポートの PDF 形式に焦点を当てますが、結果には JSON としてアクセスすることもできます。 SageMaker Autopilot はデータセットをバイナリ分類問題として判断したため、SageMaker Autopilot は、 F1品質指標 最適なモデルを見つけるために。 SageMaker Autopilot はデフォルトでこれを選択します。ただし、精度や AUC など、他の客観的な指標を柔軟に選択できます。私たちのモデルの F1 スコアは 0.61 です。 F1 スコアを解釈するには、まず混同行列を理解することが役立ちます。混同行列は、出力された PDF のモデル品質レポートで説明されています。

混乱マトリックス

混同行列は、さまざまなクラスとラベルを比較することにより、モデルのパフォーマンスを視覚化するのに役立ちます。 SageMaker Autopilot の実験では、モデル品質レポートに実際のラベルを行として表示し、述語ラベルを列として表示する混同行列が作成されました。左上のボックスは、モデルによって正しく「いいえ」と予測された、銀行に口座を開設しなかった顧客を示しています。これらは 真のネガティブ (TN)。右下のボックスは、モデルによって正しく「はい」と予測された銀行に口座を開設した顧客を示しています。これらは 真陽性 （PT）。

左下隅には数が表示されます 偽陰性 (FN)。モデルは顧客が口座を開設しないと予測しましたが、顧客は口座を開設しました。右上隅には、次の数が表示されます。 偽陽性 （FP）。モデルは顧客が口座を開設すると予測しましたが、顧客は実際に口座を開設しました。実際にそうしてください。

モデル品質レポートのメトリクス

モデル品質レポートでは、 偽陽性率 (FPR) と 真陽性率 (TPR).

リコールまたは誤検知率 (FPR) 口座開設として誤って予測された実際のネガティブ（ポジティブ）の割合を測定します。範囲は 0 ～ 1 で、値が小さいほど予測精度が高いことを示します。

FPR は 1-Specificity とも表されることに注意してください。ここで、Specificity または True Negative Rate (TNR) は、口座を開設していない (ネガティブ) と正しく識別された TN の割合です。

リコール/感度/真陽性率 (TPR) 口座開設として予測された実際の陽性者の割合を測定します。範囲も 0 ～ 1 で、値が大きいほど予測精度が高いことを示します。これは、リコール/感度とも呼ばれます。この尺度は、データセット内の関連するすべてのインスタンスを見つける能力を表します。

精度陽性と予測されたすべての陽性者のうち、陽性と予測された実際の陽性者の割合を測定します。範囲は 0 ～ 1 で、値が大きいほど精度が高くなります。精度は、モデルが関連していると判断したデータポイントと実際に関連していたデータポイントの割合を表します。精度は、特に FP のコストが高い場合 (電子メールのスパム検出など) に考慮すべき適切な手段です。

私たちのモデルは、適合率 0.53 と再現率 0.72 を示しています。

F1スコア は、精度と再現率の調和平均である目標指標を示しています。データセットは多くの「いいえ」予測を優先して不均衡になっているため、F1 では FP と FN の両方を考慮して、精度と再現率に同じ重みを与えます。

レポートでは、これらの指標を解釈する方法について説明します。これらの用語に慣れていない場合に役立ちます。この例では、精度と再現率は F1 スコアの計算に使用されるため、二項分類問題にとって重要な指標です。レポートでは、F1 スコアは 0 から 1 の間で変動する可能性があると説明しています。可能な限り最高のパフォーマンスのスコアは 1 となり、0 は最悪のパフォーマンスを示します。このモデルの F1 スコアは 0.61 であることに注意してください。

Fβスコア 精度と再現率の加重調和平均です。さらに、F1 スコアは β=1 の Fβ と同じです。レポートには分類子の Fβ スコアが表示されます。β は 0.5、1、2 の値になります。

メトリクステーブル

問題によっては、SageMaker Autopilot が複数クラス分類問題の精度などの別のメトリクスを最大化することがわかる場合があります。問題の種類に関係なく、モデル品質レポートでは、インラインと PDF レポートの両方で利用できるモデルのメトリクスを要約した表が生成されます。メトリックテーブルの詳細については、ドキュメント.

最良の定数分類子 (他のより複雑な分類子と比較するための単純なベースラインとして機能する分類子) は、ユーザーが提供する定数多数ラベルを常に予測します。私たちの場合、「定数」モデルは「いいえ」を予測します。これは、最も頻度の高いクラスであり、負のラベルとみなされるためです。トレーニングされた分類器モデルのメトリクス (f1、f2、リコールなど) は、定数分類器のメトリクス、つまりベースラインと比較できます。これにより、トレーニングされたモデルのパフォーマンスが定数分類子よりも確実に向上します。 Fβ スコア (f0_5、f1、および f2、β はそれぞれ 0.5、1、および 2 の値を取る) は、精度と再現率の加重調和平均です。これは 1 で最適値に達し、0 で最悪値に達します。

私たちの場合、最良の定数分類器は常に「いいえ」を予測します。したがって、精度は 0.89 と高くなりますが、再現率、適合率、および Fβ スコアは 0 です。単一の多数クラスまたは少数クラスが存在せず、データセットが完全にバランスがとれていれば、精度、再現率、Fβ についてはさらに興味深い可能性が見られたでしょう。および定数分類器の Fβ スコア。

さらに、次のサンプルに示すように、これらの結果を JSON 形式で表示できます。 UI を通じて PDF ファイルと JSON ファイルの両方にアクセスできるほか、 Amazon SageMaker Python SDK で S3OutputPath 要素を使用する出力データ構成の構造 CreateAutoMLJob/AutoMLJob の説明 API 応答。

{ "version" : 0.0, "dataset" : { "item_count" : 9152, "evaluation_time" : "2022-03-16T20:49:18.661Z" }, "binary_classification_metrics" : { "confusion_matrix" : { "no" : { "no" : 7468, "yes" : 648 }, "yes" : { "no" : 295, "yes" : 741 } }, "recall" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "precision" : { "value" : 0.5334773218142549, "standard_deviation" : 0.007335840278445563 }, "accuracy" : { "value" : 0.8969624125874126, "standard_deviation" : 0.0011703516093899595 }, "recall_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "precision_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "accuracy_best_constant_classifier" : { "value" : 0.8868006993006993, "standard_deviation" : 0.0016707401772078998 }, "true_positive_rate" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "true_negative_rate" : { "value" : 0.9201577131591917, "standard_deviation" : 0.0010233756436643213 }, "false_positive_rate" : { "value" : 0.07984228684080828, "standard_deviation" : 0.0010233756436643403 }, "false_negative_rate" : { "value" : 0.2847490347490348, "standard_deviation" : 0.004399966000813983 },
………………….

ROCとAUC

問題の種類に応じて、FPR として許容されるしきい値が異なる場合があります。たとえば、顧客が口座を開設するかどうかを予測しようとしている場合、FP レートが高い方が企業にとって受け入れられやすい可能性があります。誤って「はい」と予測された顧客にオファーを提供するよりも、誤って「ノー」と予測された顧客にオファーを提供しない方がリスクが高くなります。これらのしきい値を変更して異なる FPR を生成するには、新しい混同行列を作成する必要があります。

分類アルゴリズムは、予測確率として知られる連続値を返します。これらの確率は、(バイナリ分類の場合) バイナリ値に変換する必要があります。二項分類問題では、しきい値 (または決定しきい値) は、確率を単純な二項決定に二分する値です。 0 ～ 1 の範囲の正規化された予測確率の場合、しきい値はデフォルトで 0.5 に設定されます。

二項分類モデルの場合、有用な評価指標は、受信者動作特性 (ROC) 曲線の下の面積です。モデル品質レポートには、TP レートを Y 軸、FPR を X 軸とした ROC グラフが含まれています。受信機動作特性 (AUC-ROC) の下の領域は、TPR と FPR の間のトレードオフを表します。

ROC 曲線を作成するには、しきい値を使用するバイナリ分類予測子を取得し、予測確率を使用してラベルを割り当てます。モデルのしきい値を変更すると、0 つの極端な点がカバーされます。 TPR と FPR が両方とも 1 の場合は、すべてに「いいえ」というラベルが付いていることを意味し、TPR と FPR の両方が XNUMX である場合は、すべてに「はい」というラベルが付いていることを意味します。

半分の時間で「はい」、残りの半分の時間で「いいえ」とラベルを付けるランダムな予測子の場合、ROC は直線の対角線 (赤い点線) になります。この線は、単位正方形を 0.5 つの同じサイズの三角形に切断します。したがって、曲線の下の面積は 0.5 になります。 AUC-ROC 値が 1.0 の場合、予測変数は 0.5 つのクラスを区別する能力が、顧客が口座を開設するかどうかをランダムに推測するのと同じであることを意味します。 AUC-ROC 値が 0.93 に近づくほど、予測の精度が高くなります。 XNUMX 未満の値は、得られた答えを逆にすることで、モデルが実際により良い予測を生成できることを示します。最良のモデルの AUC は XNUMX です。

精度再現曲線

モデル品質レポートでは、ROC 曲線と同様に、さまざまなしきい値に対する適合率 (Y 軸) と再現率 (X 軸) をプロットする適合率再現率 (PR) 曲線も作成されました。 PR 曲線は、情報検索でよく使用され、クラス分布に大きな偏りがある分類問題に対する ROC 曲線の代替手段です。

これらのクラスの不均衡なデータセットでは、少数派の肯定的なクラスが多数派の否定的なクラスよりも興味深い場合に、PR 曲線が特に役立ちます。このモデルの精度は 0.53、再現率は 0.72 であることを思い出してください。さらに、最良の定数分類子は「はい」と「いいえ」を区別できないことに注意してください。毎回、ランダムなクラスまたは定数のクラスを予測します。

「はい」と「いいえ」の間のバランスの取れたデータセットの曲線は 0.5 の水平線となり、PR 曲線の下の面積 (AUPRC) は 0.5 になります。 PRC を作成するには、ROC 曲線と同じ方法で、さまざまなしきい値で曲線上にさまざまなモデルをプロットします。私たちのデータでは、AUPRC は 0.61 です。

モデル品質レポートの出力

モデル品質レポートは、SageMaker AutoPilot 実験を実行する前に出力パスを指定するときに指定した Amazon S3 バケット内にあります。レポートは次の場所にあります。 documentation/model_monitor/output/<autopilot model name>/ prefix PDFとして保存されます。

まとめ

SageMaker Autopilot モデル品質レポートを使用すると、SageMaker Autopilot 実験の結果を簡単にすばやく確認して共有できます。 SageMaker Autopilot を使用してモデルのトレーニングとチューニングを簡単に完了し、生成されたレポートを参照して結果を解釈できます。 SageMaker Autopilot の最適なモデルを使用することになるか、別の候補を使用することになるかにかかわらず、これらの結果は、予備的なモデルのトレーニングと調整ジョブを評価するための有用な開始点となります。 SageMaker Autopilot モデル品質レポートは、コードの作成に必要な時間を短縮し、パフォーマンスの評価と比較のためのビジュアルを作成するのに役立ちます。

データサイエンスチームを構築しなくても、今日から autoML をビジネスケースに簡単に組み込むことができます。セージメーカードキュメントには、開始に役立つ多数のサンプルが用意されています。

著者について

ピーター・チョン はAWSのソリューションアーキテクトであり、お客様がデータから洞察を発見できるよう支援することに情熱を注いでいます。彼は、組織が公共部門と民間部門の両方でデータ主導の意思決定を行うのに役立つソリューションを構築してきました。彼は、すべてのAWS認定とXNUMXつのGCP認定を保持しています。彼はコーヒーを飲み、料理をし、活動を続け、家族と過ごす時間を楽しんでいます。

アルンプラサト・シャンカール は、AWSの人工知能と機械学習（AI / ML）スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

アリ・タクビリ はAI/MLスペシャリストのソリューションアーキテクトであり、機械学習を使用してAWSクラウドでのビジネス上の課題を解決することでお客様を支援します。

プラディープレディ は、SageMaker Autopilot、SageMaker AutomaticModelTunerを含むSageMakerLow/ NoCodeMLチームのシニアプロダクトマネージャーです。仕事以外では、Pradeepは、ラズベリーパイなどの手のひらサイズのコンピューターやその他のホームオートメーション技術を使って、読書、ランニング、オタクを楽しんでいます。

タイムスタンプ： 2022 年 3 月 29 日

タイムスタンプ： 2024 年 3 月 19 日

プラトン再発行

Amazon SageMaker で AWS Trainium を使用して Llama 2 をトレーニングするための簡単なガイド |アマゾンウェブサービス

Amazon QuickSight のワードクラウドを使用して Amazon Comprehend 分析を視覚化する | アマゾンウェブサービス

Amazon SageMaker エンドポイントで YOLOv8 PyTorch モデルをホストする

ユーザーベクトルを使用した Amazon Rekognition Face Search の精度の向上 |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

新着情報？