AI/ML 工作负载需要额外的安全性

由柏拉图重新发布

关注： 0

对安全性的需求遍及所有电子系统。但鉴于处理极其有价值的数据的数据中心机器学习计算的增长，一些公司特别关注安全地处理这些数据。

必须采用所有常见的数据中心安全解决方案，但需要付出额外的努力来确保模型和数据集在存储时、在加速器刀片之间传输时以及在托管系统上进行处理时受到保护同一服务器内同时有多个租户。

产品营销高级总监巴特·史蒂文斯（Bart Stevens）表示：“推理模型、推理算法、训练模型和训练数据集被认为是有价值的知识产权，需要保护——特别是因为这些有价值的资产被移交给数据中心以在共享资源上进行处理。”对于安全 IP，位于 Rambus公司，在最近的一次演讲中。

对人工智能训练数据的任何篡改都可能导致创建错误模型。对训练有素的模型的任何更改都可能导致人工智能引擎得出错误的结论。 “所有三种主要的学习类型（监督学习、无监督学习和强化学习）都使用加权计算来产生结果，” 西门子EDA。 “如果这些权重过时、损坏或被篡改，那么结果可能是完全错误的。”

对人工智能工作负载的攻击的影响将取决于应用程序，但结果永远不会好。唯一的问题是它是否会造成严重损害或伤害。

虽然攻击是保护的主要重点，但它们并不是唯一值得关注的领域。 Panesar 表示：“‘威胁’分为两大类——不良行为者的故意干扰和无意的问题，这些问题通常可以被视为硬件或软件中的错误。”

安全基础
有适用于任何计算环境的基本安全概念，人工智能计算也不例外。虽然必须特别注意人工智能工作负载的某些方面，但必须保护的不仅仅是工作负载。 “我们必须考虑整个系统操作的完整性，而不仅仅是我们正在处理的特定芯片或片上子系统，”Panesar 说。

正如史蒂文斯所概述的，必须处理四个方面的安全问题。首先，数据和计算必须保密。其次，攻击者不可能随时随地更改任何数据。第三，参与计算的所有实体必须是真实的。第四，攻击者不可能干扰计算平台的正常运行。

这引出了一些基本的安全概念，希望参与安全系统设计的任何人都熟悉这些概念。第一个是分三个阶段保护数据：

1. 静态数据，包括任何存储的数据；
2. 数据从一个地方传送到另一个地方时处于动态状态，以及
3. 使用中的数据，在处理时在计算平台中处于活跃状态。

另一个熟悉的需求是可信执行环境（TEE）。这是一个仅限于高度可信软件的计算环境，并且只能通过高度受控和可信的渠道访问计算平台的其余部分。任何无法受到损害的关键硬件或其他资产都将放置在此环境中，并且不能在 TEE 外部直接访问。

TEE 提供了一种处理关键安全操作的基本方法，其受外部软件干扰的程度要低得多。它将应用程序软件与较低级别的安全操作分开。它还管理引导过程，以确保其安全可靠地进行，捕获任何引导不真实代码的尝试。

安全计算需要多种操作。身份验证可确保与之通信的实体确实如其所声称的那样。加密可确保数据免遭窥探。软件和其他数据工件可以通过散列和签名操作来保证其来源。所有这些功能都需要足够强度的密钥来防止暴力破解，这使得有效的密钥配置和管理至关重要。

通过确保 TEE 和其他关键安全电路免受闯入或中断操作的尝试来提供额外的保护。必须保护侧通道，以确保无法通过测量外部可检测的电子伪影（例如功率或电磁辐射）来窥探数据或密钥。

最后，监控内部活动的电路可以提供进一步的保护层，以便在出现可疑情况时发出警报。

将此专门应用于人工智能
确保人工智能工作负载的安全始于这些基本的安全要求，无论是训练还是推理，无论是在数据中心、本地服务器还是边缘设备中。但还必须考虑特定于人工智能工作负载的其他注意事项。

“需要安全的人工智能实施来防止推理算法、模型和参数、训练算法和训练集的提取或窃取，”史蒂文斯解释道。 “这也意味着防止这些资产被恶意算法或数据集意外替换。这将避免毒害系统来改变推理结果，从而导致错误分类。”

新的人工智能处理硬件架构提供了系统中需要保护的另一部分。 “系统的核心显然是一系列强大的加速器芯片，从少数到大型专用人工智能处理单元矩阵，都有自己的内存池，并且只有一个任务，那就是处理尽可能多的数据最短的时间框架，”史蒂文斯指出。

设计人员必须首先考虑需要保护的特定资产。最明显的是训练或推理硬件。 “刀片服务器上常见的是网关 CPU，带有专用闪存和 DDR，”Stevens 说。 “它的任务是管理模型、添加资产。和控制加速器。然后是与结构的连接——高速网络或 PCIe-4 或 -5 接口。有些刀片还具有专有的刀片间链接。”

图 1：数据中心的通用 AI 刀片。除了常见的 CPU、动态内存和网络连接之外，加速器还将在内部 SRAM 的协助下完成繁重的工作。来源：Rambus

图 1：数据中心的通用 AI 刀片。除了常见的 CPU、动态内存和网络连接之外，加速器还将在内部 SRAM 的协助下完成繁重的工作。来源：Rambus

此外，需要保护的数据有多种类型，这取决于操作是训练还是推理。在训练模型时，必须保护训练数据样本和正在训练的基础模型。在推理时，训练好的模型、所有的权重、输入数据和输出结果都需要保护。

从操作上来说，这是一个新的、快速发展的领域，因此调试是可能的。任何调试都必须安全地执行，并且在未经过身份验证的使用时必须关闭任何调试功能。

对代码或任何其他资产的更改必须通过安全可靠的更新来交付。特别是，模型可能会随着时间的推移而改进。因此，必须有一种方法可以用新版本替换旧版本，同时不允许任何未经授权的人用不真实的模型替换有效模型。

“安全的固件更新以及以安全的方式调试系统的能力，如今正在成为赌注，”史蒂文斯指出。

数据泄露的风险
很明显，必须保护数据不被窃取。任何此类盗窃显然都是违反保密规定的行为，但在涉及政府法规的情况下，其后果更为可怕。此类法规的示例包括欧洲的 GDPR 规则和美国的 HIPAA 医疗保健规则。

但除了公然盗窃之外，数据操纵也令人担忧。例如，训练数据可以被更改，作为侦查某些秘密的手段，或者只是为了毒害训练，从而导致生成的模型效果不佳。

大部分计算（尤其是训练模型时）将在数据中心进行，这可能涉及多租户服务器以实现低成本运营。 “出于各种原因，越来越多的公司和团队依赖共享云计算资源，主要是为了可扩展性和成本，”Dana Neustadter 说道，他是安全 IP 高级产品营销经理新思.

这意味着多个作业共存于同一硬件上。然而，这些作业的执行安全性必须不低于在单独的服务器上执行的安全性。它们必须通过软件进行隔离，以防止任何内容（数据或其他内容）从一项工作泄漏到另一项工作。

“当系统不再受您控制时，将计算转移到云端可能会带来潜在的安全风险，”Neustadter 说。 “无论是错误的还是恶意的，一个用户的数据都可能是另一用户的恶意软件。用户需要信任云提供商能够满足合规标准、执行风险评估、控制用户访问等。”

容器化通常有助于隔离多租户环境中的进程，但一个恶意进程仍然有可能影响其他进程。 Panesar 指出：“导致应用程序占用处理资源的问题可能会影响其他租户。” “这在医疗报告等关键环境中或租户拥有具有约束力的 SLA（服务级别协议）的任何地方尤其重要。”

最后，虽然它可能不会影响计算的具体结果或数据的机密性，但数据中心运营必须确保管理操作不会被修改。史蒂文斯指出：“还应该采取安全措施，以确保服务的正确计费并防止不道德的使用，例如种族定性。”

新标准将帮助开发人员确保涵盖所有必要的基础。

“业界正在开发 PCIe 接口安全等标准，其中 PCI-SIG 推动完整性和数据加密 (IDE) 规范，并辅之以组件测量和身份验证 (CMA) 以及可信执行环境 I/O (TEE-I/ O），”诺伊施塔特说。 “可分配设备接口安全协议 (ADISP) 和其他协议扩展了可信虚拟机的虚拟化功能，这些虚拟机用于将机密计算工作负载与托管环境隔离，并得到强大的身份验证和密钥管理的支持。”

图2：人工智能计算涉及多种资产，每种资产都有特定的安全需求。来源：Rambus

图2：人工智能计算涉及多种资产，每种资产都有特定的安全需求。来源：Rambus

实施保护
考虑到典型的人工智能计算环境，必须采取几个步骤来锁定操作。他们从硬件开始信任的根源（HRoT）。

HRoT 是一个可信的、不透明的环境，可以在不暴露所使用的密钥或其他秘密的情况下执行身份验证和加密等安全操作。它可能是 TEE 的关键组成部分。它们通常与经典架构中的处理器相关联，但这里通常有多个处理元件。

特别是，专用于人工智能处理的新型硬件芯片没有内置的信任根功能。 “最近的许多 AI/ML 加速器设计——尤其是初创公司的设计——主要侧重于获得最佳的 NPU 处理能力，”史蒂文斯在后续采访中解释道。 “安全不是主要关注点，或者说不在他们的关注范围内。”

这意味着系统需要在其他地方提供 HRoT，为此有几种选择。

一种专注于使用中的数据的方法是为每个计算元件（例如主机芯片和加速器芯片）提供自己的 HRoT。每个 HRoT 将处理自己的密钥并按照其关联处理器的指示执行操作。它们可能会单片集成在 SoC 上，尽管目前神经处理器的情况并非如此。

另一种选择侧重于动态数据，是在网络连接处提供 HRoT，以确保进入板的所有数据都是干净的。 “对于动态数据，吞吐量要求非常高，而延迟要求非常低，”史蒂文斯说。 “系统使用临时密钥，因为它们通常使用会话密钥。”

“为了进行身份验证，刀片需要获得识别号码，这不一定需要保密，”他继续说道。 “它只需要独特且不可改变。它可以有多个 ID，每个芯片一个，或者刀片或设备本身一个。”

当未来的神经处理单元 (NPU) 内置安全性时，可能不需要这些外部 HRoT。 “最终，当初创公司的初始 NPU 概念证明被证明是成功的时，这些设计的第二轮架构将具有信任根功能，这将具有更多的加密功能来处理更大的工作负载，”史蒂文斯补充道。

从 SRAM 移动到 DRAM 或从 SRAM 移动到 DRAM 的数据也应该加密，以确保它不会被窥探。这同样适用于与相邻板的任何直接侧面连接。

由于在已经很密集的计算中嵌入了如此多的加密，人们面临着操作陷入困境的风险。安全操作至关重要，但如果它削弱了操作本身，那对任何人都没有好处。

Stevens 补充道：“应通过插入高吞吐量 L2 或 L3 协议感知安全数据包引擎来保护网络或 PCI Express 结构链路。” “这样的数据包引擎几乎不需要 CPU 的支持。”

这也适用于内存和刀片到刀片的流量加密。 “网关 CPU DDR 和本地 AI 加速器 GDDR 的内容可以通过内联内存加密引擎进行保护，”他说。 “如果存在专用的刀片到刀片侧通道，则可以通过高吞吐量 AES-GCM 对其进行保护 [伽罗瓦/计数器模式] 链接加密加速器。”

最后，可以通过跟踪实际操作的持续监控来支持标准安全保护。 Panesar 说：“您需要从硬件收集信息，这些信息可以告诉您系统的行为方式。” “这需要实时、瞬时、长期的统计。它还需要可理解（无论是人类还是机器）并且可操作。温度、电压和时序数据都很好，但您还需要更高级别、更复杂的信息。”

但这并不能替代严格的安全措施。 “目的是找出可能逃避传统安全保护的问题，但它不能替代此类保护，”他补充道。

未来的努力
这些元素不一定很容易实现。这需要努力工作。 Synopsys 安全 IP 架构师 Mike Borza 指出：“弹性、安全更新系统的能力以及从成功攻击中恢复的能力是真正的挑战。” “构建这样的系统非常非常困难。”

但随着人工智能计算变得越来越常规，非数据建模或安全专家的工程师在将人工智能融入应用程序时将越来越多地转向机器学习服务。他们需要能够依靠基础设施，妥善保管重要数据，以便他们用来区分产品的模型和计算不会落入坏人之手。

相关
芯片和人工智能系统的安全权衡
专家出席会议：安全性如何影响功耗和性能，为什么人工智能系统如此难以保护，以及为什么隐私越来越受到关注。
安全研究位
新的安全技术论文在 21 月 XNUMX 日的 USENIX 安全研讨会上发表。
始终在线，始终处于危险之中
随着处理元件的增多、自动唤醒、无线更新和连接性的增强，芯片安全问题也随之增加。
安全知识中心
有关硬件安全的热门故事、白皮书、博客、视频
人工智能知识中心

来源：https://semiengineering.com/ai-ml-workloads-need-extra-security/

时间戳记： 2021 年 11 月 15 日