专用处理器可加速端点 AI 工作负载
虽然加速 AI 和 ML 应用程序仍然是一个相对较新的领域,但出现了各种处理器来加速几乎所有神经网络工作负载。从处理器巨头到业内一些最新的初创公司,都提供了不同的东西——无论是针对不同的垂直市场、应用领域、功率预算还是价格点。这是当今市场上的快照。
应用处理器
英特尔 Movidius Myriad X
Myriad X 由英特尔于 2016 年收购的爱尔兰初创公司 Movidius 开发,是该公司的第三代视觉处理单元,也是第一个采用专用神经网络计算引擎的产品,可提供每秒 1 万亿次运算 (TOPS) 的专用深度神经网络 (DNN) 计算。神经计算引擎直接与高吞吐量智能内存结构接口,以避免在传输数据时出现任何内存瓶颈。它支持 FP16 和 INT8 计算。 Myriad X 还具有 16 个专有 SHAVE 内核集群以及升级和扩展的视觉加速器。
英特尔的神经计算棒 2 中提供了 Myriad X,它实际上是一个 USB 拇指驱动器形式的评估平台。它可以插入任何工作站,让 AI 和计算机视觉应用程序能够非常快速地在专用的 Movidius 硬件上启动和运行。
NXP Semiconductors i.MX 8M Plus
i.MX 8M Plus 是一种异构应用处理器,具有来自芯原 (Vivante VIP8000) 的专用神经网络加速器 IP。它为消费和工业物联网 (IIoT) 中端点设备的推理提供 2.3 TOPS 的加速,足以进行多对象识别、40,000 字的语音识别,甚至医学成像(MobileNet v1,每秒 500 张图像)。
除了神经网络处理器,i.MX 8M Plus 还配备了一个运行频率为 2 GHz 的四核 Arm Cortex-A53 子系统,以及一个 Cortex-M7 实时子系统。
对于视觉应用,有两个图像信号处理器支持两个用于立体视觉的高清摄像头或一个 12 兆像素 (MP) 摄像头。对于语音,该设备包括一个 800-MHz HiFi4 音频数字信号处理器 (DSP),用于语音数据的预处理和后处理。
恩智浦的 i.MX 8M Plus 是该公司首款配备专用神经网络加速器的应用处理器。它专为物联网应用而设计。 (图片:恩智浦半导体)
XMOS xcore.ai
xcore.ai 旨在实现物联网 (AIoT) 应用程序中的语音控制。交叉处理器(具有应用处理器的性能和微控制器的低功耗实时操作),该设备专为语音信号的机器学习推理而设计。
它基于 XMOS 的专有 Xcore 架构,其本身建立在称为逻辑内核的构建块上,可用于 I/O、DSP、控制功能或 AI 加速。每个 xcore.ai 芯片上有 16 个这样的内核,设计人员可以选择分配给每个功能的数量。将不同的功能映射到固件中的逻辑内核,可以创建完全用软件编写的“虚拟 SoC”。 XMOS 为 Xcore 添加了矢量管道功能,用于机器学习工作负载。
xcore.ai 支持 32 位、16 位、8 位和 1 位(二值化)网络,提供 3,200 MIPS、51.2 GMACC 和 1,600 MFLOPS。它具有1 MB的嵌入式SRAM和一个用于扩展的低功耗DDR接口。
XMOS 的 xcore.ai 基于专有架构,专为语音处理应用程序中的 AI 工作负载而设计。 (图片:XMOS)
汽车 SoC
Texas Instruments Inc. TDA4VM
作为用于汽车高级驾驶辅助系统 (ADAS) 的 Jacinto 7 系列的一部分,TDA4VM 是 TI 首款具有专用片上深度学习加速器的片上系统 (SoC)。该模块基于 C7x DSP 加上内部开发的矩阵乘法加速器 (MMA),可实现 8 TOPS。
SoC 可以处理来自前置摄像头的高达 8 MP 或四到六个 3 MP 摄像头加上雷达、激光雷达和超声波传感器的组合的视频流。例如,MMA 可用于在自动代客泊车系统中对这些输入执行传感器融合。 TDA4VM 专为 5 至 20 W 的 ADAS 系统而设计。
该设备仍处于试生产阶段,但现已提供开发套件。
TI TDA4VM 旨在用于允许车辆感知其环境的复杂汽车 ADAS 系统。 (图片:德州仪器公司)
GPU
Nvidia Corp. Jetson Nano
Nvidia 著名的 Jetson Nano 是一个小巧但功能强大的图形处理单元 (GPU) 模块,用于端点设备中的 AI 应用程序。 Nano 模块上的 GPU 与 Jetson 系列的较大成员(AGX Xavier 和 TX2)基于相同的 Maxwell 架构,拥有 128 个内核,能够达到 0.5 TFLOPS,足以在来自高据该公司称,分辨率图像传感器。它在使用时仅消耗 5 W。该模块还具有四核 Arm Cortex-A57 CPU。
与 Nvidia 范围内的其他部件一样,Jetson Nano 使用 CUDA X,这是 Nvidia 的神经网络加速库集合。廉价的 Jetson Nano 开发套件随处可见。
Nvidia 的 Jetson Nano 模块配备了一个强大的 GPU,具有 128 个内核,用于边缘 AI。 (图片:英伟达公司)
消费者协处理器
耐能公司KL520
美国台湾初创公司 Kneron 的第一个产品是 KL520 神经网络处理器,专为智能家居、安全系统和移动设备等应用中的图像处理和面部识别而设计。它针对运行卷积神经网络 (CNN) 进行了优化,这是当今图像处理中常用的类型。
KL520 可以运行 0.3 TOPS 并消耗 0.5 W(相当于 0.6 TOPS/W),该公司表示,鉴于该芯片的 MAC 效率很高(超过 90%),这足以实现准确的面部识别。芯片架构是可重新配置的,可以针对不同的 CNN 模型进行定制。该公司的互补编译器还使用压缩技术,以帮助在芯片资源内运行更大的模型,从而帮助节省功耗和成本。
KL520 现已上市,也可以在制造商 AAEON 的加速器卡(M2AI-2280-520)上找到。
耐能的 KL520 使用可重新配置的架构和巧妙的压缩在移动和消费设备中运行图像处理。 (图片:耐能公司)
Gyrfalcon Lightspeeur 5801
Gyrfalcon 的 Lightspeeur 5801 专为消费电子市场设计,在 224 mW 功耗(相当于 12.6 TOPS/W)下提供 2.8 TOPS 和 4 毫秒延迟。与其他架构相比,该公司使用了一种特别节能的内存处理器技术。通过在 50 到 200 MHz 之间改变时钟速度,功耗实际上可以与时钟速度进行权衡。 Lightspeeur 5801 包含 10 MB 内存,因此整个模型都可以安装在芯片上。
这部分是该公司的第四款量产芯片,已经在 LG 的 Q70 中端智能手机中找到,用于处理相机效果的推理。 USB 拇指驱动器开发套件 5801 Plai Plug 现已上市。
超低功耗
Eta Compute ECM3532
Eta Compute 的首款量产产品 ECM3532 专为物联网的电池供电或能量收集设计中的 AI 加速而设计。以低至 100 µW 的功率预算即可实现图像处理和传感器融合中的始终在线应用。
该芯片有两个内核——一个 Arm Cortex-M3 微控制器内核和一个 NXP CoolFlux DSP。该公司使用专有的电压和频率缩放技术,调整每个时钟周期,从两个内核中榨出最后一滴电源。机器学习工作负载可由任一内核处理(例如,某些语音工作负载更适合 DSP)。
ECM3532 的样品现已提供,预计将于 2020 年第二季度开始量产。
Syntiant Corp. NDP100
美国初创公司 Syntiant 的 NDP100 处理器专为在电力紧张的应用中对语音命令进行机器学习推理而设计。其基于内存处理器的芯片消耗不到 140 µW 的有功功率,可以运行用于关键字识别、唤醒词检测、说话人识别或事件分类的模型。该公司表示,该产品将用于实现耳塞、助听器、智能手表和遥控器等消费设备的免提操作。开发套件现已上市。
Syntiant 的 NDP100 设备专为超低功耗应用中的语音处理而设计。 (图片:Syntiant Corp.)
GreenWaves Technologies GAP9
GAP9 是法国初创公司 GreenWaves 的首款超低功耗应用处理器,拥有强大的 9 个 RISC-V 内核计算集群,其指令集经过大量定制以优化功耗。它具有双向多声道音频接口和 1.6 MB 的内部 RAM。
GAP9 可以处理电池供电的物联网设备中图像、声音和振动传感的神经网络工作负载。 GreenWaves 的数据显示 GAP9 在 160 × 160 图像上运行 MobileNet V1,在短短 12 毫秒内通道缩放为 0.25,功耗为 806 μW/帧/秒。
嵌入式