100 兆パラメータの AI トレーニング モデル

ソースノード: 1642849
画像

レコメンダー AI システムは、今日のインターネット サービスの重要なコンポーネントです。Amazon や Netflix などの数十億ドルの収益を上げているビジネスは、レコメンデーション サービスによって直接推進されています。

AI レコメンデーションは、大きくなるほど良くなります。 いくつかのモデルは、ごく最近、数十億個のパラメーターを備えた以前にリリースされました。 モデルの能力が飛躍的に向上するたびに、品質が大幅に向上しました。 100 兆パラメータの時代はすぐそこまで来ています。

複雑で高密度のレスト ニューラル ネットワークは、各トレーニング反復で 100 を超える TFLOP を使用するため、ますます計算集約的になります。 したがって、このようなトレーニング タスク用の異種リソースを含むクラスターを管理するための洗練されたメカニズムを持つことが重要です。

最近、Kwai Seattle AI Lab と ETH Zurich の DS3 Lab が協力して、「Persia」という名前の新しいシステムを提案し、トレーニング アルゴリズムとトレーニング システムの両方を慎重に共同設計することでこの問題に取り組みました。 アルゴリズム レベルでは、Persia はハイブリッド トレーニング アルゴリズムを採用して、埋め込みレイヤーと高密度ニューラル ネットワーク モジュールを異なる方法で処理します。 埋め込みレイヤーは、トレーニング サンプルのスループットを向上させるために非同期的にトレーニングされますが、残りのニューラル ネットワークは、統計効率を維持するために同期的にトレーニングされます。 システム レベルでは、ハイブリッド アルゴリズムの可能性を最大限に引き出すために、メモリ管理と通信削減のための幅広いシステム最適化が実装されています。

100 兆パラメータの AI モデルのクラウド リソース

Persia 100 兆パラメーター AI ワークロードは、次の異種リソースで実行されます。

3,000 コアの計算集約型仮想マシン
合計 8 個の A2 Nvidia GPU を追加する 64 個の A100 仮想マシン
それぞれ 30 TB の RAM を備えた 12 台のハイ メモリ仮想マシン、合計 360 TB
Kubernetes によるオーケストレーション
ネットワーク遅延を最小限に抑えるために、すべてのリソースを同じゾーンで同時に起動する必要がありました。 Google Cloud は、ほとんど通知することなく、必要な容量を提供できました。

AI トレーニングには、バーストでリソースが必要です。

Google Kubernetes Engine (GKE) を利用して、138 個の VM とソフトウェア コンテナーのデプロイを調整しました。 ワークロードをコンテナー化することで、トレーニングの移植と再現性も可能になります。

結果と結論
Google Cloud インフラストラクチャのサポートにより、チームは Persia のスケーラビリティを 100 兆パラメータまで実証しました。 ハイブリッド分散トレーニング アルゴリズムは、通常の SGD と同じ速さで収束しながら、異種クラスターを効率的に利用するために精巧なシステム緩和を導入しました。 Google Cloud は、オンプレミス ハードウェアの制限を克服するために不可欠であり、大規模な分散機械学習トレーニングに最適なコンピューティング環境であることが証明されました。

Persia は、オープンソース プロジェクトとして github でリリースされ、Google Cloud のセットアップ手順が記載されています。学界と業界の両方の誰もが、100 兆パラメータ規模のディープ ラーニング レコメンデーション モデルを簡単にトレーニングできることに気付くでしょう。

Brian Wangは未来派の思想的リーダーであり、月に1万人の読者を持つ人気の科学ブロガーです。 彼のブログNextbigfuture.comは、サイエンスニュースブログで第1位にランクされています。 宇宙、ロボット工学、人工知能、医学、アンチエイジングバイオテクノロジー、ナノテクノロジーなど、多くの破壊的技術とトレンドをカバーしています。

最先端のテクノロジーを特定することで知られる彼は、現在、潜在的な初期段階の企業のスタートアップおよび募金活動の共同創設者です。 彼は、ディープテクノロジー投資の割り当てに関する調査責任者であり、SpaceAngelsのエンジェル投資家です。

彼は企業で頻繁に講演を行っており、TEDxの講演者、シンガラリティ大学の講演者、ラジオやポッドキャストの多数のインタビューのゲストを務めています。 彼は人前で話すことと約束を助言することにオープンです。

タイムスタンプ:

より多くの 次の大きな未来