Amazon SageMaker での大規模言語モデルのトレーニング: ベストプラクティス

プラトン再発行

フォロワー： 0

言語モデルは、自然なテキストを使用して、シーケンス内のトークンの連続を予測する統計的手法です。大規模言語モデル (LLM) は、数億 (ベルト) 兆を超えるパラメータ (MiCS)、そのサイズはシングル GPU トレーニングを非現実的にします。 LLM の生成能力により、LLM はテキスト合成、要約、機械翻訳などで人気があります。

LLM とそのトレーニングデータのサイズは両刃の剣です。モデリングの品質は向上しますが、インフラストラクチャの課題が伴います。多くの場合、モデル自体が大きすぎて、単一の GPU デバイスのメモリまたはマルチ GPU インスタンスの複数のデバイスに収まりません。これらの要因により、加速された機械学習 (ML) インスタンスの大規模なクラスターで LLM をトレーニングする必要があります。ここ数年、多くのお客様が AWS クラウドを LLM トレーニングに使用しています。

この投稿では、LLM トレーニングを成功させるためのヒントとベストプラクティスについて詳しく説明します。 Amazon SageMaker トレーニング. SageMaker Training は、マネージドバッチ ML コンピューティングサービスであり、インフラストラクチャを管理する必要なく、モデルを大規模にトレーニングおよび調整するための時間とコストを削減します。 XNUMX つの起動コマンド内で、アマゾンセージメーカー選択したタスクを実行し、メタストア、マネージド I/O、分散などの強化された ML 機能を備えた、完全に機能する一時的なコンピューティングクラスターを起動します。この投稿では、LLM トレーニングワークロードのすべてのフェーズをカバーし、関連するインフラストラクチャ機能とベストプラクティスについて説明します。この投稿のベストプラクティスの一部は特に ml.p4d.24xlarge インスタンスに言及していますが、ほとんどはどのインスタンスタイプにも適用できます。これらのベストプラクティスにより、数十から数億のパラメーターのスケールで SageMaker で LLM をトレーニングできます。

この投稿の範囲に関しては、次の点に注意してください。

ニューラルネットワークの科学的設計と関連する最適化については説明しません。アマゾン・サイエンス以下を含むがこれらに限定されない多数の科学出版物を特集しています LLM.
この投稿では LLM に焦点を当てていますが、そのベストプラクティスのほとんどは、コンピュータービジョンや Stable Diffusion などのマルチモーダルモデルを含む、あらゆる種類の大規模モデルトレーニングに関連しています。

ベストプラクティス

この投稿では、次のベストプラクティスについて説明します。

計算 – SageMaker Training は、CPU データセットの準備ジョブと千規模の GPU ジョブを起動するための優れた API です。
Storage – データのロードとチェックポイントは、スキルと好みに応じて XNUMX つの方法で行われます。 Amazon FSx 光沢ファイルシステム、または Amazon シンプルストレージサービス (Amazon S3) のみ。
平行度 – 分散トレーニングライブラリの選択は、GPU を適切に使用するために重要です。 SageMaker シャードデータ並列処理など、クラウドに最適化されたライブラリを使用することをお勧めしますが、セルフマネージドライブラリやオープンソースライブラリも機能します。
ネットワーキング – 高速なマシン間通信のために、EFA と NVIDIA GPUDirectRDMA が有効になっていることを確認します。
回復力 – 大規模な場合、ハードウェア障害が発生する可能性があります。定期的にチェックポイントを設定することをお勧めします。数時間おきが一般的です。

地域選択

インスタンスタイプと必要な容量は、リージョン選択の決定要因です。 SageMaker でサポートされているリージョンとアマゾンエラスティックコンピューティングクラウド各リージョンで利用可能な (Amazon EC2) インスタンスタイプについては、を参照してください。 Amazon SageMakerの価格. この投稿では、トレーニングインスタンスタイプが SageMaker 管理の ml.p4d.24xlarge であると想定しています。

AWS アカウントチームと協力するか、連絡することをお勧めします AWS セールス LLM ワークロードに適したリージョンを決定します。

データの準備

LLM 開発者は、自然に発生するテキストの大規模なデータセットでモデルをトレーニングします。このようなデータソースの一般的な例としては、一般的なクロール & パイル. 自然に発生するテキストには、バイアス、不正確さ、文法上の誤り、および構文のバリエーションが含まれる場合があります。 LLM の最終的な品質は、トレーニングデータの選択とキュレーションに大きく依存します。 LLM トレーニングデータの準備は、LLM 業界における研究と革新の活発な分野です。自然言語処理 (NLP) データセットの準備には、シェアナッシング並列処理の機会がたくさんあります。つまり、作業単位 (ソースファイル、段落、文、単語) に適用できるステップがあり、ワーカー間の同期を必要としません。

SageMaker ジョブ API、つまり SageMaker Training と SageMaker Processing は、このタイプのタスクに優れています。これらにより、開発者は複数のマシンのフリートで任意の Docker コンテナーを実行できます。 SageMaker Training API の場合、コンピューティングフリートは不均質な. SageMaker では、以下を含む多数の分散コンピューティングフレームワークが使用されています。ダスク, レイ、またパイスパーク、専用の AWS が管理するコンテナ & SDK SageMaker 処理で。

複数のマシンでジョブを起動すると、SageMaker Training and Processing はマシンごとに XNUMX 回コードを実行します。分散アプリケーションを作成するために、特定の分散コンピューティングフレームワークを使用する必要はありません。マシンごとに XNUMX 回実行される任意のコードを作成して、シェアナッシング並列処理を実現できます。選択したノード間通信ロジックを作成またはインストールすることもできます。

データの読み込み

トレーニングデータを保存し、そのストレージから高速化されたコンピューティングノードに移動するには、複数の方法があります。このセクションでは、データ読み込みのオプションとベストプラクティスについて説明します。

SageMaker のストレージと読み込みオプション

一般的な LLM データセットのサイズは、数百ギガバイトに相当する数億のテキストトークンです。 SageMaker が管理する ml.p4d.24xlarge インスタンスのクラスターは、データセットのストレージと読み込みに関するいくつかのオプションを提案します。

オンノード NVMe SSD – ml.P4d.24xlarge インスタンスには 8TB NVMe が搭載されており、以下で利用できます。 /opt/ml/input/data/<channel> あなたが使うなら SageMaker ファイルモード、および /tmp. ローカル読み取りのシンプルさとパフォーマンスを求めている場合は、データを NVMe SSD にコピーできます。コピーは、SageMaker ファイルモードで行うか、マルチプロセスを使用するなどの独自のコードで行うことができます。ボト3 or S5cmd.
光沢のためのFSx – オンノード NVMe SSD はサイズが制限されており、各ジョブまたはウォームクラスターの作成時に Amazon S3 からの取り込みが必要です。低レイテンシのランダムアクセスを維持しながら、より大きなデータセットにスケーリングすることを検討している場合は、FSx for Lustre を使用できます。 Amazon FSx はオープンソースの並列ファイルシステムで、ハイパフォーマンスコンピューティング (HPC) で人気があります。 FSx for Lustre の使用分散ファイルストレージ (ストリッピング) し、ファイルメタデータをファイルコンテンツから物理的に分離して、高性能の読み取り/書き込みを実現します。
SageMaker FastFile モード – FastFile モード (FFM) は、SageMaker が管理するコンピューティングインスタンス内のリモート S3 オブジェクトを POSIX 準拠のインターフェイスで表示し、FUSE を使用して読み取り時にのみストリーミングする SageMaker 専用の機能です。 FFM 読み取りの結果、リモートファイルをブロックごとにストリーミングする S3 呼び出しが発生します。 Amazon S3 トラフィックに関連するエラーを回避するためのベストプラクティスとして、FFM 開発者は、たとえば、ファイルを順番に読み取り、並列処理の量を制御して、S3 呼び出しの基本的な数を適切に保つことを目指す必要があります。
自己管理データの読み込み – もちろん、プロプライエタリまたはオープンソースコードを使用して、独自の完全にカスタムのデータ読み込みロジックを実装することもできます。自己管理型のデータ読み込みを使用する理由としては、開発済みのコードを再利用して移行を容易にしたり、カスタムエラー処理ロジックを実装したり、基になるパフォーマンスやシャーディングをより詳細に制御したりするためなどがあります。セルフマネージドデータの読み込みに使用できるライブラリの例には、次のものがあります。トーチデータ.データパイプ（以前 AWS PyTorch S3 プラグイン）とウェブデータセット. AWS Python SDK ボト3 と組み合わせることもできますトーチデータセットクラスを使用して、カスタムデータロードコードを作成します。カスタムデータローディングクラスにより、SageMaker Training の異種クラスターをクリエイティブに使用して、CPU と GPU のバランスを特定のワークロードに細かく適応させることもできます。

これらのオプションとその選択方法の詳細については、次を参照してください。 AmazonSageMakerトレーニングジョブに最適なデータソースを選択してください.

Amazon S3 との大規模なやり取りのベストプラクティス

Amazon S3 は、データの読み取りとチェックポイントの両方で、LLM ワークロードを処理できます。それはサポートしますリクエスト率バケット内のプレフィックスごとに 3,500 秒あたり 5,500 の PUT/COPY/POST/DELETE または 3 の GET/HEAD リクエスト。ただし、このレートはデフォルトで利用できるとは限りません。代わりに、プレフィックスのリクエストレートが増加すると、Amazon SXNUMX は増加したレートを処理するために自動的にスケーリングします。詳細については、次を参照してください。リクエストがプレフィックスごとにサポートされているリクエストレートの範囲内にあるのに、Amazon S503 から 3 Slow Down エラーが発生するのはなぜですか?.

高頻度の Amazon S3 インタラクションが予想される場合は、次のベストプラクティスをお勧めします。

複数の S3 バケットから読み書きを試み、プレフィックス. たとえば、トレーニングデータとチェックポイントを異なるプレフィックスに分割できます。
Amazon S3 メトリクスを確認するアマゾンクラウドウォッチリクエスト率を追跡します。
同時 PUT/GET の量を最小限に抑えるようにしてください。
- 同時に Amazon S3 を使用するプロセスが少なくなります。たとえば、ノードごとに 3 つのプロセスが Amazon S8 にチェックポイントする必要がある場合、階層的にチェックポイントを設定することで PUT トラフィックを 3 分の XNUMX に減らすことができます。最初はノード内で、次にノードから Amazon SXNUMX へ。
- すべてのトレーニングレコードに S3 GET を使用する代わりに、3 つのファイルまたは SXNUMX GET から複数のトレーニングレコードを読み取ります。
- SageMaker FFM 経由で Amazon S3 を使用する場合、SageMaker FFM は S3 呼び出しを行い、チャンクごとにファイルをフェッチします。 FFM によって生成される Amazon S3 トラフィックを制限するには、ファイルを順番に読み取り、同時に開くファイルの数を制限することをお勧めします。

あなたが持っている場合開発者、ビジネス、またはエンタープライズサポートプラン、S3 503 スローダウンエラーに関するテクニカルサポートケースを開くことができます。ただし、最初にベストプラクティスに従っていることを確認してください。リクエスト ID を取得する失敗したリクエストについて。

トレーニングの並列性

通常、LLM には数十億から数千億のパラメーターがあり、大きすぎて単一の NVIDIA GPU カードに収まりません。 LLM の実践者は、LLM トレーニングの分散計算を容易にするいくつかのオープンソースライブラリを開発しました。 FSDP, ディープスピード & メガトロン. これらのライブラリは SageMaker トレーニングで実行できますが、AWS クラウド向けに最適化され、よりシンプルな開発者エクスペリエンスを提供する SageMaker 分散トレーニングライブラリを使用することもできます。開発者は、SageMaker での LLM の分散トレーニングについて、分散ライブラリまたは自己管理の XNUMX つの選択肢があります。

SageMaker分散ライブラリ

分散トレーニングのパフォーマンスと使いやすさを向上させるために、SageMaker トレーニングでは、TensorFlow と PyTorch トレーニングコードをスケーリングするための独自の拡張機能をいくつか提案しています。 LLM トレーニングは、多くの場合、3D 並列方式で行われます。

データの並列処理トレーニングのミニバッチを分割して、モデルの複数の同一のレプリカにフィードし、処理速度を向上させます
パイプラインの並列処理単一の GPU と単一のサーバーを超えてモデルのサイズをスケーリングするために、モデルのさまざまなレイヤーを異なる GPU またはインスタンスに関連付けます。
テンソル並列処理通常は同じサーバー内で単一のレイヤーを複数の GPU に分割し、個々のレイヤーを単一の GPU を超えるサイズにスケーリングします。

次の例では、6*k*3 GPU (サーバーあたり 8 GPU) を備えた k*3 サーバーのクラスターで 8 層モデルがトレーニングされます。データの並列度は k、パイプラインの並列度は 6、テンソルの並列度は 4 です。クラスター内の各 GPU にはモデルレイヤーの 24 分の XNUMX が含まれ、完全なモデルは XNUMX 台のサーバー (合計 XNUMX 個の GPU) に分割されます。

3D 並列ニューラルネットワークトレーニングの図

以下は、LLM に特に関連します。

SageMaker 分散モデルの並列 – このライブラリは、グラフパーティショニングを使用して、速度またはメモリに最適化されたインテリジェントなモデルパーティショニングを生成します。 SageMaker 分散モデル並列は、データ並列処理、パイプライン並列処理、テンソル並列処理、オプティマイザー状態シャーディング、アクティベーションチェックポイント、オフロードなど、最新かつ最高の大規模モデルトレーニング最適化を公開します。 SageMaker 分散モデル並列ライブラリを使用して、175 の NVIDIA A920 GPU でトレーニングされた 100 億のパラメーターモデルを文書化しました。詳細については、次を参照してください。 AmazonSageMakerでモデルの並列追加とHuggingFaceを使用して175億以上のパラメーターNLPモデルをトレーニングする.
SageMaker シャーディングされたデータの並列 - で MiCS: パブリッククラウドで巨大なモデルをトレーニングするためのニアリニアスケーリング、張ら。クラスター全体ではなく、データ並列グループのみでモデルを分割する低通信モデル並列戦略を導入します。 AWS の科学者は MiCS を使用して、EC176 P56.4de インスタンスで 210 レイヤーの 1.06 兆パラメータモデルをトレーニングするために、GPU あたり 2 テラフロップス (理論上のピークの 4%) を達成することができました。 SageMaker トレーニングのお客様は、MiCS を次のように利用できるようになりました。 SageMaker シャーディングされたデータの並列.

SageMaker の分散トレーニングライブラリは、高いパフォーマンスとよりシンプルな開発者エクスペリエンスを提供します。特に、並列ランチャーはジョブ起動 SDK に組み込まれているため、開発者はカスタムの並列プロセスランチャーを作成して維持したり、フレームワーク固有の起動ツールを使用したりする必要はありません。

自己管理

SageMaker トレーニングでは、選択したフレームワークと科学的パラダイムを自由に使用できます。特に、分散トレーニングを自分で管理したい場合は、カスタムコードを記述するための XNUMX つのオプションがあります。

AWS Deep Learning Container (DLC) を使用する – AWS が開発および保守 DLCの、トップのオープンソース ML フレームワークに AWS に最適化された Docker ベースの環境を提供します。 SageMaker トレーニングには独自の統合があり、外部のユーザー定義のエントリポイントを使用して AWS DLC をプルして実行できます。特に LLM トレーニングでは、TensorFlow、PyTorch、Hugging Face、および MXNet の AWS DLC が特に関連しています。フレームワーク DLC を使用すると、独自の Docker イメージを開発および管理することなく、PyTorch Distributed などのフレームワークネイティブの並列処理を使用できます。さらに、当社の DLC には MPI 統合これにより、並列コードを簡単に起動できます。
SageMaker 互換のカスタム Docker イメージを作成する – 自分の (BYO) イメージを持ち込むことができます (を参照)。独自のトレーニングアルゴリズムを使用する & AmazonSageMakerカスタムトレーニングコンテナ）、最初から開始するか、既存の DLC イメージを拡張します。 SageMaker で LLM トレーニングにカスタムイメージを使用する場合、次のことを確認することが特に重要です。
- 画像には適切な設定の EFA が含まれています (この記事の後半で詳しく説明します)
- イメージには、GPUDirectRDMA で有効化された NVIDIA NCCL 通信ライブラリが含まれています

お客様は、DeepSpeed を含む多数の自己管理型の分散トレーニングライブラリを使用することができました。

通信部

LLM トレーニングジョブの分散された性質を考えると、ワークロードの実現可能性、パフォーマンス、およびコストにとって、マシン間通信は重要です。このセクションでは、マシン間通信の主要な機能を紹介し、インストールとチューニングのヒントを紹介して締めくくります。

エラスティックファブリックアダプター

ML アプリケーションを高速化し、クラウドによって提供される柔軟性、スケーラビリティ、弾力性を実現することでパフォーマンスを向上させるために、以下を利用できます。エラスティックファブリックアダプター (EFA) SageMaker を使用。私たちの経験では、満足のいくマルチノード LLM トレーニングパフォーマンスを得るには、EFA を使用する必要があります。

EFA デバイスは、トレーニングジョブの実行中に SageMaker によって管理される EC2 インスタンスに接続されるネットワークインターフェイスです。 EFA は、P4d を含む特定のインスタンスファミリーで利用できます。 EFA ネットワークは、数百 Gbps のスループットを達成できます。

EFA に関連して、AWS はスケーラブルで信頼性の高いデータグラム (SRD)、に触発されたイーサネットベースのトランスポート InfiniBand 信頼できるデータグラム、緩和されたパケット順序制約で進化しました。 EFA と SRD の詳細については、次を参照してください。パフォーマンスを求める場合、ネットワークを構築する方法は複数あります、ビデオ EFA の仕組みとクラウドでインフィニバンドを使用しない理由、および研究論文エラスティックでスケーラブルな HPC のためのクラウド最適化トランスポートプロトコル Shalevらから。

互換性のあるインスタンスでの EFA 統合を、SageMaker の既存の Docker コンテナ、または SageMaker ジョブを使用して ML モデルのトレーニングに使用できるカスタムコンテナに追加できます。詳細については、次を参照してください。 EFA でトレーニングを実行する. EFA はオープンソース経由で公開されていますリブファブリック通信パッケージ。ただし、LLM 開発者が Libfabric で直接プログラムすることはめったになく、通常は代わりに NVIDIA Collective Communications Library (NCCL) に依存しています。

AWS-OFI-NCCL プラグイン

分散型 ML では、EFA は NVIDIA Collective Communications Library (NCCL) と共に最もよく使用されます。 NCCL は、GPU 間通信アルゴリズムを実装する NVIDIA が開発したオープンソースライブラリです。 GPU 間通信は、スケーラビリティとパフォーマンスを促進する LLM トレーニングの基礎です。 NCCL は DL トレーニングにとって非常に重要であるため、NCCL はディープラーニングトレーニングライブラリの通信バックエンドとして直接統合されることが多いため、LLM 開発者は、好みの Python DL 開発フレームワークから気付かずに使用することがあります。 EFA で NCCL を使用するために、LLM 開発者は AWS が開発した AWS OFI NCCL プラグインこれは、NCCL 呼び出しを EFA が使用する Libfabric インターフェイスにマップします。最近の改善点を活用するには、AWS OFI NCCL の最新バージョンを使用することをお勧めします。

NCCL が EFA を使用していることを確認するには、環境変数を設定する必要があります。 NCCL_DEBUG 〜へ INFO、EFA が NCCL によってロードされていることをログで確認します。

...
NCCL INFO NET/OFI Selected Provider is efa
NCCL INFO Using network AWS Libfabric
...

NCCL および EFA 構成の詳細については、次を参照してください。 EFA と NCCL の構成をテストする. NCCL をさらにカスタマイズするには、いくつかの環境変数. NCCL 2.12 以降では、AWS が EFA ネットワークの自動通信アルゴリズム選択ロジックに貢献したことに注意してください (NCCL_ALGO 未設定のままにすることができます)。

NVIDIA GPUDirect RDMA over EFA

P4d インスタンスタイプでは、導入 EFA ファブリック上の GPUDirect RDMA (GDR)。これにより、ネットワークインターフェイスカード (NIC) が GPU メモリに直接アクセスできるようになり、NVIDIA GPU ベースの EC2 インスタンス間のリモート GPU 間通信が高速化され、CPU とユーザーアプリケーションのオーケストレーションオーバーヘッドが削減されます。可能であれば、GDR は NCCL によって内部で使用されます。

次のコードのように、ログレベルが INFO に設定されている場合、GDR の使用状況が GPU 間通信に表示されます。


NCCL INFO Channel 00 : 9[101d0] -> 0[101c0] [receive] via NET/AWS Libfabric/1/GDRDMA
NCCL INFO Channel 00 : 1[101d0] -> 8[101c0] [send] via NET/AWS Libfabric/1/GDRDMA

AWS 深層学習コンテナでの EFA の使用

AWS は Deep Learning Containers (DLC) を維持しており、その多くには AWS が管理する Dockerfile が付属しており、EFA、AWS OFI NCCL、および NCCL を含んで構築されています。次の GitHub リポジトリは、パイトーチ & TensorFlow. これらのライブラリを自分でインストールする必要はありません。

独自の SageMaker Training コンテナで EFA を使用する

独自の SageMaker Training コンテナを作成し、高速化されたノード間通信のために EFA 経由で NCCL を使用する場合は、EFA、NCCL、および AWS OFI NCCL をインストールする必要があります。詳細については、次を参照してください。 EFA でトレーニングを実行します。さらに、コンテナまたはエントリポイントコードで次の環境変数を設定する必要があります。

FI_PROVIDER="efa" ファブリックインターフェイスプロバイダーを指定します
NCCL_PROTO=simple 通信に単純なプロトコルを使用するように NCCL に指示します (現在、EFA プロバイダーは LL プロトコルをサポートしていません。LL プロトコルを有効にすると、データが破損する可能性があります)。
FI_EFA_USE_DEVICE_RDMA=1 デバイスの RDMA 機能を使用して、片側および両側の転送を行います
NCCL_LAUNCH_MODE="PARALLEL"
NCCL_NET_SHARED_COMMS="0"

編成

数十から数百のコンピューティングインスタンスのライフサイクルとワークロードを管理するには、オーケストレーションソフトウェアが必要です。このセクションでは、LLM オーケストレーションのベストプラクティスを紹介します。

ジョブ内オーケストレーション

開発者は、ほとんどの分散フレームワークで、サーバー側のトレーニングコードとクライアント側のランチャーコードの両方を作成する必要があります。トレーニングコードはトレーニングマシンで実行されますが、クライアント側のランチャーコードは分散ワークロードをクライアントマシンから起動します。今日、標準化はほとんどありません。たとえば、次のようになります。

PyTorch では、開発者は次を使用してマルチマシンタスクを起動できます。 torchrun, torchx, torch.distributed.launch (非推奨パス)、または torch.multiprocessing.spawn
DeepSpeed は独自の deepspeed CLI ランチャーを提案し、MPI の起動もサポートします
MPI は人気のある並列コンピューティングフレームワークであり、ML に依存せず、合理的に使用できるという利点があるため、安定して文書化されており、分散 ML ワークロードでますます見られるようになっています。

SageMaker トレーニングクラスターでは、トレーニングコンテナが各マシンで XNUMX 回起動されます。したがって、次の XNUMX つのオプションがあります。

ネイティブランチャー – 特定の DL フレームワークのネイティブランチャーをエントリポイントとして使用できます。 torchrun 呼び出し、それ自体が複数のローカルプロセスを生成し、インスタンス間の通信を確立します。
SageMaker MPI 統合 – AWS DLC で利用できる SageMaker MPI 統合を使用するか、または sagemaker トレーニングツールキット、エントリポイントコードをマシンごとに N 回直接実行します。これには、独自のコードで中間のフレームワーク固有のランチャースクリプトを使用しないという利点があります。
SageMaker分散ライブラリ – SageMaker の分散ライブラリを使用すると、トレーニングコードに集中でき、ランチャーコードをまったく作成する必要がなくなります。 SageMaker 分散ランチャーコードは、SageMaker SDK に組み込まれています。

ジョブ間のオーケストレーション

LLM プロジェクトは多くの場合、パラメーター検索、スケーリング実験、エラーからの回復など、複数のジョブで構成されています。トレーニングタスクを開始、停止、および並列化するには、ジョブオーケストレーターを使用することが重要です。 SageMaker Training は、リクエストに応じてすぐに一時的なコンピューティングインスタンスをプロビジョニングするサーバーレス ML ジョブオーケストレーターです。使用した分だけ料金が発生し、クラスターはコードが終了するとすぐに廃止されます。と SageMaker トレーニングウォームプール、ジョブ間で同じインフラストラクチャを再利用するために、トレーニングクラスターで有効期限を定義するオプションがあります。これにより、反復時間とジョブ間の配置のばらつきが減少します。 SageMaker ジョブは、さまざまなプログラミング言語から起動できます。 Python & CLI.

と呼ばれる SageMaker 固有の Python SDK があります。 SageMaker Python SDK を介して実装されます。セージメーカー Python ライブラリですが、その使用はオプションです。

大規模で長時間のトレーニングクラスターを使用したトレーニングジョブのクォータの増加

SageMaker には、リソースに対するデフォルトのクォータがあり、意図しない使用とコストを防ぐように設計されています。長時間実行されるハイエンドインスタンスの大規模なクラスターを使用して LLM をトレーニングするには、次の表のクォータを増やす必要がある可能性があります。

クォータ名	デフォルト値
トレーニングジョブの最長実行時間	432,000 seconds
すべてのトレーニングジョブのインスタンス数	4
トレーニングジョブあたりのインスタンスの最大数	20
ml.p4d.24xlarge トレーニングジョブの使用	0
ml.p4d.24xlarge ウォームプールの使用方法のトレーニング用	0

見る AWS サービスのクォータクォータ値を表示し、クォータの引き上げをリクエストする方法。オンデマンド、スポットインスタンス、およびトレーニングウォームプールのクォータは、個別に追跡および変更されます。

SageMaker Profiler を有効にしておくことにした場合、すべてのトレーニングジョブが SageMaker Processing ジョブを起動し、それぞれが 5.2 つの ml.m50xlarge インスタンスを消費することに注意してください。 SageMaker 処理クォータが、予想されるトレーニングジョブの同時実行に対応するのに十分な高さであることを確認します。たとえば、5.2 個の Profiler 対応トレーニングジョブを同時に実行する場合は、処理ジョブの使用制限の ml.m50xlarge を XNUMX に引き上げる必要があります。

さらに、長時間実行されるジョブを起動するには、明示的に設定する必要があります推定量 max_run パラメータを、トレーニングジョブの最長実行時間のクォータ値まで、秒単位でトレーニングジョブの目的の最大期間に設定します。

監視と回復力

ハードウェア障害は、単一インスタンスの規模では非常にまれであり、同時に使用されるインスタンスの数が増えるにつれてますます頻繁になります。通常の LLM 規模 (数百から数千の GPU を 24 時間年中無休で数週間から数か月使用) では、ハードウェア障害はほぼ確実に発生します。したがって、LLM ワークロードは、適切な監視および回復メカニズムを実装する必要があります。まず、LLM インフラストラクチャを綿密に監視して、障害の影響を制限し、コンピューティングリソースの使用を最適化することが重要です。 SageMaker トレーニングでは、この目的のためにいくつかの機能を提案しています。

ログは CloudWatch Logs に自動的に送信されます。ログにはトレーニングスクリプトが含まれます stdout & stderr. MPI ベースの分散トレーニングでは、すべての MPI ワーカーがログをリーダープロセスに送信します。
メモリ、CPU 使用率、GPU 使用率などのシステムリソース使用率のメトリクスは、CloudWatch に自動的に送信されます。
また、ご購読はいつでも停止することが可能ですカスタムトレーニング指標を定義するそれが CloudWatch に送信されます。メトリックは、設定した正規表現に基づいてログから取得されます。次のようなサードパーティの実験パッケージ AWSパートナー Weights & Biases の提供は、SageMaker Training で使用できます (例については、 W&B と SageMaker による CIFAR-10 ハイパーパラメータの最適化).
SageMaker プロファイラーインフラストラクチャの使用状況を調査し、最適化の推奨事項を取得できます。
アマゾンイベントブリッジ & AWSラムダジョブの失敗、成功、S3 ファイルのアップロードなどのイベントに反応する自動化されたクライアントロジックを作成できます。
SageMaker SSH ヘルパーはコミュニティが管理するオープンソースライブラリで、SSH 経由でトレーニングジョブホストに接続できます。特定のノードで実行されているコードを検査してトラブルシューティングすることが役立つ場合があります。

監視に加えて、SageMaker はジョブの回復力のための機器も提供します。

クラスターのヘルスチェック – ジョブが開始される前に、SageMaker は GPU ヘルスチェックを実行し、GPU インスタンスで NCCL 通信を検証し、必要に応じて障害のあるインスタンスを置き換えて、トレーニングスクリプトがインスタンスの正常なクラスターで実行を開始できるようにします。ヘルスチェックは現在、P および G GPU ベースのインスタンスタイプで有効になっています。
組み込みの再試行とクラスターの更新 – SageMaker を自動的に設定できますリトライ SageMaker 内部サーバーエラー (ISE) で失敗するトレーニングジョブ。ジョブの再試行の一環として、SageMaker は回復不能な GPU エラーが発生したインスタンスを新しいインスタンスに置き換え、すべての正常なインスタンスを再起動して、ジョブを再開します。これにより、再起動とワークロードの完了が高速化されます。クラスターの更新は現在、P および G GPU ベースのインスタンスタイプで有効になっています。自分で追加できます適用可能な再試行メカニズムジョブを送信するクライアントコードの周りで、アカウントクォータの超過など、他の種類の起動エラーを処理します。
自動化 Amazon S3 へのチェックポイント – これにより、チェックポイントあなたの進歩と新しい仕事の過去の状態をリロードします。

ノードレベルの置換を利用するには、コードでエラーが発生する必要があります。ノードに障害が発生した場合、コレクティブはエラーではなくハングすることがあります。したがって、迅速な修復を行うには、コレクティブにタイムアウトを適切に設定し、到達したときにコードがエラーをスローするようにします。

一部のお客様は、CloudWatch ログとメトリクスを監視して、ログが書き込まれない、GPU 使用率が 0% などの異常なパターンを監視して、ジョブのハングやアプリケーションの収束の停止を監視し、対処するように監視クライアントをセットアップして、ハング、収束の停止、および自動のヒントを示します。ジョブを停止/再試行します。

チェックポイントの詳細

　 SageMaker チェックポイント機能はあなたが書いたものすべてをコピーします /opt/ml/checkpoints で指定された URI として Amazon S3 に戻ります checkpoint_s3_uri SDK パラメータ。ジョブが開始または再開されると、その URI に書き込まれたすべての内容がすべてのマシンに送り返されます。 /opt/ml/checkpoints. これは、すべてのノードがすべてのチェックポイントにアクセスできるようにする場合に便利ですが、規模が大きくなると、多数のマシンまたは多数の履歴チェックポイントがある場合、Amazon S3 でのダウンロード時間が長くなり、トラフィックが過剰になる可能性があります。さらに、テンソルとパイプラインの並列処理では、ワーカーはチェックポイントが設定されたモデルのすべてではなく、一部のみを必要とします。これらの制限に直面している場合は、次のオプションをお勧めします。

Lustre の FSx へのチェックポイント – 高性能ランダム I/O のおかげで、選択したシャーディングとファイル属性スキームを定義できます
自己管理型の Amazon S3 チェックポイント – 非ブロッキング方式でチェックポイントを保存および読み取るために使用できる Python 関数の例については、次を参照してください。チェックポイントの保存

関連するオーバーヘッドとコストに応じて、数時間ごと (たとえば 1 ～ 3 時間) にモデルのチェックポイントを設定することを強くお勧めします。

フロントエンドとユーザー管理

ユーザー管理は、従来の共有 HPC インフラストラクチャと比較して、SageMaker の主要なユーザビリティの強みです。 SageMaker トレーニングのアクセス許可は、複数の権限によって制御されます AWS IDおよびアクセス管理 (IAM) 抽象化:

プリンシパル (ユーザーとシステム) には、リソースを起動する権限が与えられます
トレーニングジョブはそれ自体がロールを持ち、たとえばデータアクセスやサービス呼び出しに関する独自の権限を持つことができます。

さらに、2022 年に SageMaker ロールマネージャーペルソナ主導の権限の作成を容易にするため。

まとめ

SageMaker トレーニングを使用すると、コストを削減し、大規模なモデルのトレーニングワークロードの反復速度を向上させることができます。以下を含む多数の投稿やケーススタディで成功事例を文書化しています。

コストを削減しながら LLM の市場投入までの時間を短縮したいと考えている場合は、SageMaker Training API をご覧になり、構築したものをお知らせください。

Amr Ragab、Rashika Kheria、Zmnako Awrahman、Arun Nagarajan、Gal Oshri の有益なレビューと教えに特に感謝します。

著者について

アナスタシア・ツェベレカ AWS の機械学習および AI スペシャリストソリューションアーキテクトです。彼女は EMEA の顧客と協力し、AWS のサービスを使用して大規模な機械学習ソリューションを設計するのを支援しています。彼女は、自然言語処理 (NLP)、MLOps、Low Code No Code ツールなど、さまざまな分野のプロジェクトに取り組んできました。

ギリナチュム は、EMEAのAmazonMachineLearningチームの一員として働くシニアAI/MLスペシャリストソリューションアーキテクトです。 Giliは、ディープラーニングモデルのトレーニングの課題と、機械学習が世界をどのように変えているかについて情熱を注いでいます。暇なときは、ギリは卓球を楽しんでいます。

オリヴィエ・クルシャン フランスを拠点とする AWS のプリンシパル機械学習スペシャリストソリューションアーキテクトです。 Olivier は、AWS のお客様 (小規模なスタートアップから大企業まで) が本番グレードの機械学習アプリケーションを開発およびデプロイするのを支援しています。余暇には、研究論文を読んだり、友人や家族と一緒に荒野を探索したりしています。

ブルーノ・ピストン ミラノを拠点とする AWS の AI/ML スペシャリストソリューションアーキテクトです。彼は、あらゆる規模の顧客と協力して、技術的なニーズを深く理解し、AWS クラウドと Amazon Machine Learning スタックを最大限に活用する AI および機械学習ソリューションを設計できるよう支援しています。彼の専門分野は、機械学習のエンドツーエンド、機械学習の産業化、MLOps です。彼は友達と時間を過ごし、新しい場所を探索したり、新しい目的地に旅行したりすることを楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/training-large-language-models-on-amazon-sagemaker-best-practices/

タイムスタンプ： 2023 年 3 月 6 日

タイムスタンプ： 2023 年 8 月 22 日

プラトン再発行

VPC をサポートする Amazon Kendra S3 Connector を使用して正確に回答を検索する

Amazon Personalize の推奨事項のビジネスへの影響を測定する

AmazonLexとUneeqのデジタルヒューマンプラットフォームを統合する

AmazonKendraJiraクラウドコネクタを使用してJiraプロジェクトをインテリジェントに検索します

AmazonRekognitionとAmazonTextractを使用して、ドキュメントをモデレート、分類、処理します

AmazonSageMakerとHuggingFaceによるテキストの要約

Mistral AI の Mistral 7B 基礎モデルが Amazon SageMaker JumpStart | で利用できるようになりました。アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー