使用特定领域的加速器扩展 RISC-V 架构
当 RISC-V 市场刚开始时,最初的热潮是降低设计成本,否则在深度嵌入式应用中会使用专有的 CPU 指令集架构 (ISA)。当这些片上系统 (SoC) 开始采用 FinFET 半导体工艺技术制造时,掩模成本变得如此昂贵,以至于许多有限状态机被基于 RISC-V 指令集的可编程微定序器所取代。这些创造了最初的兴奋,后来在 2014 年到 2018 年间推动了简单 RISC-V 内核的商品化。
随着 RISC-V 架构变得更加成熟并且 SoC 设计人员对 ISA 越来越熟悉,它发现在需要高性能的实时应用程序中得到采用:特别是用作人工智能等应用程序的高度专业化加速引擎的前端.这种采用的一个关键原因是 RISC-V 是一种供用户添加指令的开放架构,因此 RISC-V 处理器不必像传统架构那样将加速器视为内存映射 I/O 设备.相反,他们可以使用低延迟协处理器。
具有矢量扩展的 RISC-V 处理器的可用性使专用加速器能够处理内核内部循环之间的层,用于人工智能 (AI)、增强现实/虚拟现实 (AR/VR) 和计算机视觉等应用程序。但是,如果没有专门构建的扩展(例如将数据从外部加速器带入内部向量寄存器的自定义加载指令),这是不可能实现的。
推动这种转变的是这些应用程序所需的编程模型。专用加速器 - 一个大型乘法器 - 在它执行的操作和数据移动方面效率很高,但相当不灵活。将此与 x86 等通用处理器形成对比,后者允许程序员在不考虑计算引擎限制的情况下最大程度地灵活地进行编程——只要设计有 100W 的功率消耗,而大多数情况下没有。
RISC-V 中的标准向量扩展加上专门的自定义指令是加速器的理想伴侣(图片:Andes Technology)
显而易见的解决方案是将通用 CPU 的灵活性与可以处理非常具体任务的加速器相结合(见上图)。在 RISC-V 中,成熟的标准向量扩展加上专门的自定义指令是加速器的理想伴侣,随着特定领域加速 (DSA) 解决方案融合到 RISC-V 平台上,这种采用在过去 18 个月中变得明显。
为了实现这一愿景,我们观察到加速器必须能够使用自己的资源(包括内存)执行自己的命令集。为了简化加速器的执行,RISC-V 还应该能够将微代码展平至尽可能宽的宽度,并将所有必需的控制信息打包到加速器中的一个命令中。另外,这个加速器命令集应该知道RISC-V处理器的标量寄存器和向量寄存器以及它自己的控制寄存器文件和内存等资源。
当加速器需要帮助以特殊方式重新排序或操作数据时,Andes 架构会使用矢量处理单元 (VPU) 来处理此问题,以处理数据排列的复杂工作——移位、收集、压缩和扩展。在层之间,有一些内核涉及复杂性。在这里,VPU 提供了帮助解决该需求的灵活性。在这些套接字中,加速器和 VPU 都执行大量的并行计算;因此我们增加了硬件来显着提高内存子系统的带宽以满足计算需求,包括但不限于预取和无序返回的非阻塞事务。
安第斯科技首款支持最新V-extension 0.8版本的RISC-V向量处理器NX27V,以8位、16位、32位整数为单位执行每一次计算,到16位、32位浮点。它还支持 Bfloat16 和 Int4 格式,以减少机器学习算法权重值的存储和传输带宽。 RISC-V 矢量规范非常灵活,允许设计人员配置关键设计参数,例如矢量长度、每个矢量寄存器中的位数,以及 SIMD 宽度,矢量引擎每个周期处理的位数。
NX27V 的向量长度可达 512 位,并可通过组合多达 8 个向量寄存器扩展到 4096 位。通过在并行管道中添加多个功能单元,它可以维持多样化应用所需的计算吞吐量。在配置为 512 位向量长度和相同 SIMD 宽度的实现中,它在 0.3 mm 区域内的最坏情况条件下在 7nm 内达到 1 GHz 速度 2 .对于软件开发支持,除了编译器、调试器、向量库和循环模拟器之外,NX27V 管道的可视化工具 Clarity 还有助于分析和优化关键循环的性能。此解决方案已开始在我们的抢先体验计划中提供。
在过去的 15 个月里,我们看到了对高性能的大量需求,增加了强大的 RISC-V 矢量扩展,将其与高带宽内存子系统相匹配,并使加速器更接近 CPU。我们认为,这种计算需求将推动对 RISC-V 和向量处理的需求。
>> 本文最初发表于我们的姊妹网站 EE Times。
嵌入式