AI/ML ワークロードには追加のセキュリティが必要

プラトン再発行

フォロワー： 0

セキュリティの必要性はすべての電子システムに浸透しています。しかし、非常に貴重なデータを扱うデータセンター機械学習コンピューティングの成長を考慮して、一部の企業はそのデータを安全に扱うことに特に注意を払っています。

通常のデータセンターのセキュリティソリューションをすべて活用する必要がありますが、モデルとデータセットが保存されるとき、アクセラレータブレードとの間で転送されるとき、およびホストするシステムで処理するときの両方で確実に保護されるようにするには、特別な努力が必要です。同じサーバー内で同時に複数のテナントを使用できます。

「推論モデル、推論アルゴリズム、トレーニングモデル、トレーニングデータセットは貴重な知的財産とみなされ、保護が必要です。特に、これらの貴重な資産は共有リソースで処理するためにデータセンターに引き渡されるためです。」と製品マーケティング担当シニアディレクターのバートスティーブンス氏は述べています。セキュリティ IP については、ラムバス、最近のプレゼンテーションで。

AI トレーニングデータが改ざんされると、欠陥のあるモデルが作成される可能性があります。また、十分にトレーニングされたモデルに変更を加えると、AI エンジンによって誤った結論が導き出される可能性があります。「3 つの主要な学習タイプ (教師あり、教師なし、強化) はすべて、重み付けされた計算を使用して結果を生成します」と、フェローのガジンダーパネサー氏は述べています。シーメンスEDA。「それらの重み付けが古くなったり、破損したり、改ざんされたりすると、結果が単純に間違っている可能性があります。」

AI ワークロードに対する攻撃の影響はアプリケーションによって異なりますが、結果は決して良いものではありません。唯一の問題は、それが重大な損害や怪我を引き起こすかどうかです。

保護の主な焦点は攻撃ですが、懸念されるのは攻撃だけではありません。「『脅威』は大きく 2 つのカテゴリに分類されます。悪意のある者による意図的な干渉と、一般にハードウェアまたはソフトウェアのバグと考えられる非意図的問題です」とパネサー氏は述べています。

セキュリティ基盤
あらゆるコンピューティング環境に適用される基本的なセキュリティの概念があり、AI コンピューティングも例外ではありません。 AI ワークロードの特定の側面には特別な注意を払う必要がありますが、保護する必要があるのはそのワークロードだけではありません。「私たちは、扱っている特定のチップやオンチップサブシステムだけでなく、システム全体の動作の完全性について考えなければなりません」とパネサール氏は語った。

Stevens 氏が概説したように、セキュリティには対処する必要がある 4 つの側面があります。まず、データとコンピューティングはプライベートに保たれなければなりません。第 2 に、攻撃者がいつでもどこでもデータを変更することができてはなりません。第三に、コンピューティングに参加しているすべてのエンティティが本物であることがわかっていなければなりません。そして第 4 に、攻撃者がコンピューティングプラットフォームの通常の動作を妨害することができてはなりません。

これは、安全なシステム設計に携わるすべての人にとって馴染みのあるいくつかの基本的なセキュリティ概念につながります。 1 つ目は、次の 3 つのフェーズでのデータの保護です。

1. 保存データ。これには保存されたデータが含まれます。
2. データはある場所から別の場所に通信される際に移動します。
3. 使用中のデータ。作業中のコンピューティングプラットフォーム内でアクティブかつ生きています。

もう 1 つのよく知られた要件は、信頼された実行環境 (TEE) です。これは、高度に信頼されたソフトウェアに限定されたコンピューティング環境であり、高度に制御された信頼できるチャネルを通じてのみ残りのコンピューティングプラットフォームにアクセスできます。侵害できない重要なハードウェアまたはその他の資産はこの環境に配置され、TEE の外部から直接アクセスすることはできません。

TEE は、外部ソフトウェアによる干渉をはるかに受けにくい方法で重要なセキュリティ操作を処理する基本的な方法を提供します。アプリケーションソフトウェアを下位レベルのセキュリティ操作から分離します。また、ブートプロセスを管理して、安全かつ確実にプロセスが進行するようにし、不正なコードをブートしようとする試みを捕捉します。

安全なコンピューティングには幅広い操作が必要です。認証により、通信相手が本当に本人であることが保証されます。暗号化により、データは覗き見から保護されます。ソフトウェアやその他のデータ成果物は、ハッシュ操作と署名操作によってその出所を保証できます。これらすべての機能には、ブルートフォースハッキングから保護するのに十分な強度のキーが必要であるため、効果的なキーのプロビジョニングと管理が不可欠になります。

TEE およびその他の重要なセキュリティ回路が侵入または動作の中断の試みから確実に保護されることにより、追加の保護が提供されます。サイドチャネルは、電力や電磁放射などの外部から検出可能な電子アーチファクトを測定することによってデータやキーを盗み見ることができないように保護する必要があります。

そして最後に、内部の動作を監視して何か不審なことが起こっているように見える場合に警告を発する回路によって、さらなる保護層を提供できます。

これを特に AI に適用すると、
AI ワークロードを安全に保つには、トレーニングか推論か、データセンター、ローカルサーバー、エッジ機器のいずれで行うかにかかわらず、これらの基本的なセキュリティ要件から始まります。ただし、AI ワークロードに特有の考慮すべき追加の考慮事項があります。

「推論アルゴリズム、モデルとパラメータ、トレーニングアルゴリズム、トレーニングセットの抽出や盗用を防ぐには、安全な AI 実装が必要です」と Stevens 氏は説明します。「これは、これらの資産が悪意のあるアルゴリズムやデータセットに意図せず置き換えられることを防ぐことも意味します。これにより、システムが汚染されて推論結果が変更され、誤分類が発生することを回避できます。」

新しい AI 処理ハードウェアアーキテクチャは、保護が必要なシステムの別の部分を提供します。「システムの中心となるのは、明らかに強力なアクセラレータチップのアレイであり、専用の AI 処理ユニットの数個から大規模なマトリクスまで、独自のメモリプールと、可能な限り多くのデータを処理するという 1 つのタスクだけを備えたものです。最短の時間枠です」とスティーブンス氏は述べた。

設計者はまず、保護が必要な特定の資産を考慮する必要があります。最も明らかなのは、トレーニングまたは推論ハードウェアです。「ブレード上で通常見られるのは、専用のフラッシュと DDR を備えたゲートウェイ CPU です」と Stevens 氏は言います。「そのタスクは、モデルを管理し、アセットを追加することです。そしてアクセルを制御します。次に、ファブリック (高速ネットワーク、PCIe-4 または PCIe-5 インターフェイス) への接続があります。一部のブレードには独自のブレード間リンクもあります。」

図 1: データセンター向けの汎用 AI ブレード。通常の CPU、ダイナミックメモリ、ネットワーク接続に加えて、アクセラレータが内部 SRAM の支援を受けて重労働を実行します。出典: ランバス

また、保護するデータにはさまざまな種類があり、操作がトレーニングなのか推論なのかによって異なります。モデルをトレーニングするときは、トレーニングデータサンプルとトレーニングされる基本モデルを保護する必要があります。推論時には、トレーニングされたモデル、すべての重み、入力データ、および出力結果を保護する必要があります。

運用上、これは急速に進化している新しい領域であるため、デバッグが必要になる可能性があります。すべてのデバッグは安全に実行する必要があり、認証されて使用されていないときはデバッグ機能をシャットダウンする必要があります。

また、コードやその他の資産への変更は、十分に保護された更新で配信する必要があります。特に、モデルは時間の経過とともに改善される可能性があります。したがって、古いバージョンを新しいバージョンに置き換えると同時に、無許可の人物が有効なモデルを不正なモデルに置き換えることを許可しない方法が必要です。

「最近では、安全なファームウェアのアップデートと安全な方法でシステムをデバッグできる機能が重要な要素になってきています」と Stevens 氏は述べています。

データ侵害のリスク
データを盗難から保護する必要があることは明らかです。このような盗難は明らかに機密違反ですが、政府の規制が関係する場合、その影響はさらに悲惨です。このような規制の例としては、ヨーロッパの GDPR 規則や米国の HIPAA 医療規則などがあります。

しかし、完全な盗難に加えて、データの改ざんも懸念されています。たとえば、トレーニングデータは、何らかの秘密を探り出す手段として、または単にトレーニングを毒して結果として得られるモデルが適切に機能しないようにするために変更される可能性があります。

コンピューティングの多くは、特にモデルのトレーニング時はデータセンターで行われ、低コストで運用するためにマルチテナントサーバーが必要になる場合があります。「より多くの企業やチームが、さまざまな理由で、主にスケーラビリティとコストのため、共有クラウドコンピューティングリソースに依存しています」と、セキュリティ IP 担当シニアプロダクトマーケティングマネージャーの Dana Neustadter 氏は述べています。シノプシス.

これは、複数のジョブが同じハードウェア上に共存することを意味します。ただし、これらのジョブは、別のサーバー上にある場合と同じくらい安全に実行する必要があります。これらは、データであろうとそれ以外のものであっても、あるジョブから別のジョブに漏洩しないような方法でソフトウェアによって隔離されなければなりません。

「コンピューティングをクラウドに移行すると、システムが管理下になくなったときに潜在的なセキュリティリスクが生じる可能性があります」とノイスタッター氏は述べています。「間違いであろうと悪意であろうと、あるユーザーのデータが別のユーザーのマルウェアになる可能性があります。ユーザーは、コンプライアンス基準の遵守、リスク評価の実行、ユーザーアクセスの制御などに関してクラウドプロバイダーを信頼する必要があります。」

通常、コンテナ化はマルチテナント環境でプロセスを分離するのに役立ちますが、1 つの不正なプロセスが他のプロセスに影響を与える可能性は依然としてあります。「アプリケーションが処理リソースを占有する原因となる問題は、他のテナントに影響を与える可能性があります」とパネサール氏は指摘します。「これは、医療報告などの重要な環境や、テナントに拘束力のある SLA (サービスレベルアグリーメント) がある場所では特に重要です。」

最後に、計算の特定の結果やデータの機密性には影響しないかもしれませんが、データセンターの運用では、管理運用が改ざんから安全であることを保証する必要があります。「サービスの適切な請求を保証し、人種プロファイリングなどの非倫理的な使用を防ぐためにも、セキュリティが必要です」とスティーブンス氏は指摘しました。

新しい標準は、開発者が必要な基盤をすべてカバーしていることを確認するのに役立ちます。

「業界は PCIe インターフェイスセキュリティなどの標準を開発しており、PCI-SIG は整合性とデータ暗号化 (IDE) 仕様を推進し、コンポーネントの測定と認証 (CMA) および信頼できる実行環境 I/O (TEE-I/) によって補完されています。 O)」とノイシュタッター氏は語った。「アサイナブルデバイスインターフェイスセキュリティプロトコル (ADISP) およびその他のプロトコルは、強力な認証とキー管理に支えられ、機密コンピューティングのワークロードをホスティング環境から隔離するために使用される、信頼できる仮想マシンの仮想化機能を拡張します。」

図 2: AI コンピューティングには多数の資産が含まれており、それぞれに特定のセキュリティニーズがあります。出典: ランバス

図 2: AI コンピューティングには多数の資産が含まれており、それぞれに特定のセキュリティニーズがあります。出典: ランバス

保護の実装
一般的な AI コンピューティング環境では、操作をロックダウンするためにいくつかの手順を実行する必要があります。ハードウェアから始まります信頼の根 (HRoT)。

HRoT は、使用されているキーやその他の秘密を公開することなく、認証や暗号化などの安全な操作を実行できる、信頼できる不透明な環境です。これは TEE の重要なコンポーネントになる可能性があります。これらは通常、古典的なアーキテクチャではプロセッサに関連付けられていますが、ここでは通常、複数の処理要素があります。

特に、AI 処理専用の新しいハードウェアチップには、信頼のルート機能が組み込まれていません。「最近の AI/ML アクセラレータ設計の多くは、特に新興企業によるもので、主に最適な NPU 処理を搭載することに重点を置いています」とスティーブンス氏はフォローアップインタビューで説明しました。「セキュリティは主な焦点ではなかったか、彼らの関心を引いていませんでした。」

つまり、システムは別の場所で HRoT を提供する必要があり、それにはいくつかのオプションがあります。

使用中のデータに焦点を当てた 1 つのアプローチは、各コンピューティング要素 (ホストチップやアクセラレータチップなど) に独自の HRoT を与えることです。各 HRoT は独自のキーを処理し、関連付けられたプロセッサの指示に従って操作を実行します。これらは SoC 上にモノリシックに統合される可能性がありますが、現時点ではニューラルプロセッサには当てはまりません。

もう 1 つのオプションは、移動中のデータに焦点を当てており、ネットワーク接続で HRoT を提供して、ボードに入力されるすべてのデータがクリーンであることを保証します。「移動中のデータの場合、スループット要件は非常に高く、遅延要件は非常に低いです」と Stevens 氏は述べています。「システムは通常、セッションキーで動作するため、一時的なキーを使用します。」

「認証のために、ブレードは識別番号必ずしも秘密にしておく必要はない」と彼は続けた。「必要なのは一意で不変であることだけです。 ID は、チップごとに 1 つずつ、またはブレードまたはアプライアンス自体に 1 つずつ、多数の ID にすることができます。」

将来のニューラルプロセッシングユニット (NPU) にセキュリティが組み込まれる場合、これらの外部 HRoT は必要なくなる可能性があります。「最終的に、スタートアップの最初の NPU 概念実証が成功したことが示されれば、これらの設計の 2 回目のスピンのアーキテクチャにはルートオブトラスト機能が組み込まれ、より大きなワークロードを処理するためのより多くの暗号化機能が搭載されることになります。」スティーブンスは付け加えた。

SRAM から DRAM、またはその逆に移動するデータも、盗み見できないように暗号化する必要があります。同じことが、隣接するボードへの直接の側面接続にも当てはまります。

すでに負荷の高い計算にこれだけ多くの暗号化が埋め込まれていると、操作が行き詰まってしまうリスクがあります。安全な運用は非常に重要ですが、運用自体が妨げられては何の役にも立ちません。

「ファブリックへのネットワークまたは PCI Express リンクは、高スループットの L2 または L3 プロトコル対応セキュリティパケットエンジンを挿入することで保護する必要があります」と Stevens 氏は付け加えました。「このようなパケットエンジンは CPU からのサポートをほとんど必要としません。」

これは、メモリやブレード間のトラフィック暗号化にも適用できます。「ゲートウェイ CPU DDR とローカル AI アクセラレータ GDDR の内容は、インラインメモリ暗号化エンジンによって保護できます」と彼は言いました。「専用のブレード間サイドチャネルが存在する場合、高スループットの AES-GCM によって保護できます。ガロア/カウンターモード] リンク暗号化アクセラレータ。」

最後に、実際の運用を追跡する継続的な監視によって、標準的なセキュリティ保護を強化できます。「システムがどのように動作しているかを知るために、ハードウェアから情報を収集する必要があります」とパネサー氏は言います。「これはリアルタイム、瞬間的、そして長期的な統計である必要があります。また、(人間でも機械でも) 理解可能であり、実行可能である必要があります。温度、電圧、タイミングのデータはすべて非常に適切ですが、より高度で洗練された情報も必要です。」

しかし、これは厳格なセキュリティに代わるものではありません。「目的は、従来のセキュリティ保護では回避できない可能性のある問題を特定することですが、それはそのような保護の代わりになるものではありません」と彼は付け加えた。

これからも大変な作業が続きます
これらの要素は、実装が必ずしも簡単ではありません。それには大変な努力が必要です。シノプシスのセキュリティ IP アーキテクト、マイクボルザ氏は、「回復力、システムを安全に更新する能力、攻撃成功から回復する能力は大きな課題です。」と述べています。「そのようなシステムを構築するのは非常に困難です。」

しかし、AI コンピューティングがますます日常的になるにつれて、データモデリングやセキュリティの専門家ではないエンジニアが、AI をアプリケーションに組み込む際に ML サービスに注目することが増えています。製品を差別化するために使用するモデルや計算が悪者の手に渡らないように、重要なデータを適切に管理しながら、インフラストラクチャを信頼できる必要があります。

関連記事
チップと AI システムにおけるセキュリティのトレードオフ
テーブルに着いた専門家: セキュリティが電力とパフォーマンスにどのように影響するか、AI システムのセキュリティを確保することが非常に難しい理由、そしてプライバシーへの関心が高まっている理由。
セキュリティ研究の豆知識
21 月 XNUMX 日の USENIX セキュリティシンポジウムで発表された新しいセキュリティ技術論文。
常にオン、常にリスクにさらされている
処理要素の増加、自動ウェイクアップ、無線アップデート、接続性の向上により、チップのセキュリティに関する懸念が高まります。
セキュリティナレッジセンター
ハードウェアセキュリティに関するトップストーリー、ホワイトペーパー、ブログ、ビデオ
AI ナレッジセンター

出典: https://semiengineering.com/ai-ml-workloads-need-extra-security/

タイムスタンプ： 2021 年 11 月 15 日

より多くの半導体エンジニアリング

パッシブ IEEE 802.11 リンクレベル測定のオートエンコーダベースの特性評価

ソースクラスター：

半導体エンジニアリング

ソースノード： 1474993

タイムスタンプ： 2021 年 11 月 10 日

3nm以降でのフォトマスクの課題

ソースクラスター：

ソースクラスター：

半導体エンジニアリング

ソースノード： 1576745

タイムスタンプ： 2022 年 1 月 12 日

プラトン再発行

パッシブ IEEE 802.11 リンクレベル測定のオートエンコーダベースの特性評価

3nm以降でのフォトマスクの課題

どこでもセンサーフュージョン

ロボットオペレーティングシステムを使用した分散知能システムの開発

複雑なパワーエレクトロニクスシステムのためのコンピュータ支援設計ツールの比較分析

原子層堆積を最適化するためのインテリジェントエージェント

オールシリコン 300 mm 統合プロセスにおける調整可能な結合を備えた均一スピン量子ビットデバイス

組み込みアプリケーションのデバッグ

ハイテク: 光速のイノベーション

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの 半導体エンジニアリング

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの半導体エンジニアリング