AI 芯片加速图像识别
来自法国研究机构 CEA-Leti 和 LIST 的概念验证芯片,在 VLSI Symposium 2020 上展示,结合了低功耗物联网节点和 AI 加速器,并展示了具有 15,000 倍峰峰值的超快唤醒时间减少空闲功耗。该节点为机器学习任务提供高达每秒 1.3 tera 操作/瓦 (TOPS/W) 或 36 GOPS。
这款名为 SamurAI 的芯片在占用检测系统中进行了测试,该系统具有现成的组件,包括 PIR 传感器、224×224 像素黑白相机、FeRAM 和低功率无线电。每日平均系统功耗为 105µW,其中 SamurAI 消耗了该预算的 26%。系统在每天8小时的房间占用期间以5s间隔使用PIR传感器,每秒1帧的相机和每天10次的无线电。
SamurAI 系统
SamurAI 使用两个片上子系统:一个可以在 207 ns 内启动的低功耗无时钟事件驱动唤醒控制器,以及一个包含具有深度睡眠模式的 RISC-V CPU 和 PNeuro AI 加速器的按需子系统和密码加速器。
这种双子系统方案可实现 15,000 倍的峰值空闲功率比。下图显示了不同模式下的功耗;空闲模式仅消耗 6.4 µW。 CPU和AI加速器运行时,功耗为96 mW。
该芯片建立在 STMicro 的 28 nm 完全耗尽绝缘体上硅 (FD-SOI) 工艺之上,并且在没有体偏置的情况下给出了功率数据。硅片为 4.5 mm 2 并有6个可切换的电源域。
SamurAI 按功耗模式测量功耗(模式为 LR:空闲、仅唤醒控制器 (WuC)、唤醒控制器和唤醒无线电 (WuR)、唤醒控制器和外设,和 CPU 运行(图片:CEA-Leti)
人工智能加速器
该芯片的 AI 加速器,该设计团队称之为 PNeuro,是一种单指令多数据 (SIMD) 可编程加速器。它由 2 个 32x 8 位处理元件集群和 264kB 多组 SRAM 组成。它每个周期最多可以执行 64 次乘法累加 (MAC)。 PNeuro 模块可以在 2.8 GOPS/0.48V 下达到 1.3 TOPS/W。对于 8 位全连接神经网络层,它可以在 0.9V 下实现高达 36 GOPS。
与使用控制器 RISC-V 内核进行机器学习计算相比,使用 PNeuro 加速器将系统的总功耗降低了 2.3 倍。
该设计适用于在长时间“休眠”之间需要零星计算能力的物联网应用。如果节点可以自己处理 AI 工作负载,而不是连接到云,这通常可以更快地完成,并且没有隐私影响,因为数据不在系统外部共享。这可能包括使用相机或其他传感器进行人员检测或场景识别等应用。
>> 本文最初发表于我们的姊妹网站 EE Times Europe。
嵌入式