为 Google AI 计算节点挑选的 SiFive RISC-V 内核

源节点: 1684403

RISC-V 芯片公司 SiFive 表示,其处理器在某种程度上被用于管理谷歌数据中心的人工智能工作负载。

根据 SiFive 的说法,有问题的处理器是它的智能 X280,具有矢量扩展的多核 RISC-V 设计,针对数据中心中的 AI/ML 应用程序进行了优化。 当与从 Google 的张量处理单元 (热塑性聚氨酯),据称这为编程机器学习工作负载提供了更大的灵活性。

从本质上讲,X280 处理器中的通用 RV64 内核运行管理设备的代码,并根据需要将机器学习计算输入谷歌的 MXU 以完成工作。 X280 还包括自己的矢量数学单元,可以处理加速器单元无法处理的操作。

SiFive 和 Google 有点腼腆,也许是出于商业原因,关于它是如何打包和使用的,尽管听起来 Google 已经将其定制加速单元放置在多核 X280 片上系统中,连接Google 设计的 MXU 直接连接到 RISC-V 核心复合体。 根据 SiFive 的说法,这些芯片用于谷歌的数据中心和“人工智能计算主机”中,以加速机器学习工作。

我们想象如果这些被用于生产,这些芯片正在处理服务中的任务。 我们注意到,您不能直接在 Google Cloud 上租用此硬件,它提供由传统 x86、Arm、TPU 和 GPU 技术提供支持的 AI 优化虚拟机。

本月早些时候在硅谷举行的人工智能硬件峰会上,SiFive 联合创始人兼首席架构师 Krste Asanović 和谷歌 TPU 架构师 Cliff Young 的一次演讲中披露了这些细节。 SiFive 博客文章 这个星期。

据 SiFive 称,它注意到在 X280 推出后,一些客户开始将其用作加速器的配套内核,以处理加速器无法执行的所有内务管理和通用处理任务。

许多人发现需要一个功能齐全的软件堆栈来管理加速器,该芯片业务表示,客户意识到他们可以在大型加速器旁边使用 X280 核心复合体来解决这个问题,RISC-V CPU 核心负责处理所有维护和操作代码,执行大型加速器无法执行的数学运算,并提供各种其他功能。 从本质上讲,X280 可以作为加速器的一种管理节点。

为了利用这一点,SiFive 与 Google 等客户合作开发了所谓的矢量协处理器接口扩展 (VCIX),它允许客户将加速器直接紧密链接到 X280 的矢量寄存器文件,从而提供更高的性能和更大的数据带宽。

根据 Asanović 的说法,好处是客户可以将自己的协处理器带入 RISC-V 生态系统,并在包含通用 CPU 内核和加速单元的混合。

从 Google 的角度来看,它希望专注于改进其 TPU 技术系列,而不是浪费时间从头开始制作自己的应用处理器,因此将这些加速功能与现成的通用处理器配对似乎是正确的方法去,据杨说。

VCIX 本质上以低延迟将 MXU 粘合到 RISC-V 内核,无需花费许多周期等待通过内存、缓存或 PCIe 在 CPU 和加速单元之间传输数据。 相反,我们被告知,通过向量寄存器访问只需几十个周期。 这也表明一切——RISC-V CPU 复合体和定制加速器——都在同一个芯片上,封装为片上系统。

应用程序代码在通用 RISC-V 内核上运行,任何可由 MXU 加速的工作都通过 VCIX 传递。 根据 Young 的说法,这种方法还有其他优点以及效率。 编程模型得到了简化,从而产生了一个带有交错的标量、向量和协处理器指令的单个程序,并允许开发人员在其中使用 C/C++ 或汇编程序进行编码的单个软件工具链。

“借助基于 SiFive VCIX 的通用内核与 Google MXU 的‘混合’,您可以构建一台机器,让您‘有蛋糕也能吃’,充分利用 MXU 的所有性能和通用处理器的可编程性CPU 以及 X280 处理器的矢量性能,”Young 说。

制造像这样的定制芯片的能力可能仍然是像谷歌这样的超大规模企业或那些有利基需求和财力雄厚的企业的领域,但它确实证明了由于开放生态系统 RISC-V 模型的灵活性可以实现什么.

这种灵活性和开放性似乎足以吸引谷歌——RISC-V 的长期支持者,在其一些其他产品中使用 RV 内核——使用新贵架构,而不是将其定制协处理器硬塞进 x86 芯片或 Arm - 许可设计。 ®

PS: 记得谷歌是什么时候 玩弄 在其数据中心使用 POWER CPU 架构?

时间戳记:

更多来自 注册