Edge AI 芯片放弃乘法累加阵列以达到 55 TOPS/W

一家硅谷初创公司声称它重新发明了神经网络的数学，并生产了一种互补的边缘 AI 芯片，已经采样，它不使用通常的大型乘法累加单元阵列。该芯片可运行相当于 4 TOPS，功耗高达 55 TOPS/W，据该公司称，可在 20mW（YOLOv3 at 30fps）下实现数据中心级推理。

迄今为止，总部位于圣何塞的 Perceive 一直处于超级隐身模式——作为 Xperi 的衍生产品，自两年前正式成立以来，它一直完全由其母公司提供资金。该团队有 41 人，Xperi 内部也有类似人数，致力于为芯片开发应用程序。创始 CEO Steve Teig 也是 Xperi 的 CTO；他曾是 5 年前倒闭的 3D 可编程逻辑初创公司 Tabula 的创始人兼首席技术官，在此之前，他是 Cadence 的首席技术官。

Teig 解释说，最初的想法是将 Xperi 的图像和音频处理的经典知识与机器学习相结合。 Xperi 拥有 DTS、IMAX Enhanced 和 HD Radio 等品牌——其技术组合包括用于数码相机中广泛使用的照片红眼和图像稳定等功能的图像处理软件，以及用于蓝光光盘播放器的音频处理软件。

Steve Teig（图片：Perceive）

“我们从一张白纸开始，用信息论来问：神经网络实际上在做什么计算？是否有一种不同的方法来进行这种计算，可以改变 [在边缘] 的可能性？”泰格说。 “经过几年的工作，我们发现它是，然后决定……我们应该制造一个体现这些想法的芯片。”

Teig 向 Xperi 板提出的想法是分拆一家公司，制造一种芯片，该芯片可以在 20mW 的功率预算下对边缘设备进行有意义的推理。结果，一个名为 Ergo 的 7x7mm 芯片可以在没有外部 RAM 的情况下运行 4 TOPS（实际上，它运行的性能相当于额定为 4 TOPS 的 GPU 可以实现的性能，Teig 解释说）。尔格支持多种类型的神经网络，包括卷积网络 (CNN) 和循环网络 (RNN)，这与市场上许多为 CNN 量身定制的解决方案形成鲜明对比。 Ergo 甚至可以同时运行多个异构网络。

“唯一限制我们可以运行多少网络的是组合所需的总内存，”Teig 说，并补充说 Perceive 已经证明可以同时运行 YOLOv3 或 M2Det——有 60 或 7000 万个参数——加上 ResNet 28，有几百万参数，加上一个 LSTM 或 RNN 来进行语音和音频处理。在一个应用中，这可能同时对应于成像和音频推理。

Perceive 还声称其 Ergo 芯片非常节能，达到 55 TOPS/W。这个数字比一些竞争对手声称的高出一个数量级。 Perceive 的数据显示它运行 YOLOv3，这是一个拥有 6400 万个参数的大型网络，速度为每秒 30 帧，而功耗仅为 20mW。

Perceive 声称其 Ergo 芯片的效率高达 55 TOPS/W，以 30fps 的速度运行 YOLOv3，功耗仅为 20mW（图片：Perceive）

这种能效取决于一些积极的电源门控和时钟门控技术，它们利用了神经网络处理的确定性——与其他类型的代码不同，没有分支，因此在编译时就知道时序。这使 Perceive 能够准确地了解需要打开的内容和时间。

“在电池供电的设置中，[芯片] 可以完全关闭——零毫瓦——并且有某种微瓦运动传感器或模拟麦克风来检测可能感兴趣的东西，”泰格说。 “我们可以从关机状态中醒来，加载一个巨大的数据中心级神经网络，并在大约 50 毫秒内运行它，包括解密。所以我们只在地板上留下了大约两帧视频。”

但仔细的硬件设计只是其中的一部分。

信息论

“我们想出了一种不同的方式来表示底层计算本身以及与之相关的算术，”Teig 说。 “我们以一种新的方式代表网络本身，这就是我们的优势所在。”

Perceive 始于信息论——一门科学的分支，包括区分信号和噪声的数学方法——并使用其概念来研究从噪声中提取信号需要多少计算。 Teig 以目标检测网络为例。

“你给网络上百万像素，你只想知道，这张照片里有没有狗？”他说。 “图片中的其他一切都是噪音，除了狗性 [信号]。信息论使它可以量化——你需要知道多少[判断图片中是否有狗]？实际上，您可以在数学上使其精确。”

正如 Teig 所描述的那样，主流神经网络能够基于看到许多狗的图片进行概括，因为它们至少在噪声中找到了一些信号，但这是以经验的方式完成的，而不是采用严格的数学方法。这意味着信号会携带噪声，使主流神经网络变得非常庞大，并且容易受到对抗样本和其他技巧的影响。

“在弄清楚哪些部分需要保留以及哪些部分只是噪音方面，您可以通过数学计算得越多，您在泛化方面就可以做得越好，并且您必须随身携带的其他开销越少，”Teig 说。 “我认为，即使是当前的神经网络也在从噪声中提取信号，但它们的处理方式不够严谨，因此它们承受了额外的负担。”

这种信息论观点是 Perceive 机器学习策略的基础，它以一种新的方式表示神经网络。

“实际上，这是关于如何进行机器学习的信息理论观点与体现这些想法的芯片之间的结合，”Teig 说。

芯片架构

凭借 Teig 担任 Tabula 首席技术官的背景，您可能期望基于可编程逻辑的硬件，但事实并非如此。

“十年来，我一直在思考可编程逻辑以及如何构建丰富的互连架构以实现高性能、非常并行的计算，这对我的影响很大，因为在 FPGA 上发生的大部分事情也是大规模并行的，并且非常密集计算和内存之间的交互，”Teig 说。 “这项工作肯定影响了我在 Perceive 的工作，但我们拥有的不是可编程逻辑本身 .它受到了这种思维方式的影响，但架构本身围绕着神经网络。”

Perceive 的神经网络结构是可扩展的，初始芯片 Ergo 有四个计算集群，每个集群都有自己的内存。虽然具体细节仍处于保密状态，但 Teig 确实表示，这些集群与其他 AI 加速器中发现的任何集群都有显着不同，后者通常使用乘法累加单元 (MAC) 数组来计算向量和矩阵的点积。

Perceive 的技术基于使用信息论技术重塑神经网络数学（图片：Perceive）

“我们不会那样做，”泰格说。 “我们没有一系列 MAC。结果……我们的能效是市场上任何其他产品的 20 到 100 倍，原因是其他人都在做同样的事情而我们没有。我们对网络的表示是非常新的，这使我们能够实现如此高的效率。再加上机器学习技术，它能够找到网络的这种表示，并以某种方式训练网络，使其与芯片想要看到的内容兼容。”

图像和音频

Ergo 可以支持两个摄像头，包括一个图像处理单元，作为预处理器，处理诸如鱼眼镜头图像去扭曲、伽马校正、白平衡和裁剪之类的事情。

“这并不花哨，但在硬件中显然有用的预处理，我们在硬件中进行，”Teig 说。 “而且我们也有等效的音频——例如，我们可以使用多个立体声麦克风并进行波束成形。”

还有一个 Synopsis ARC 微处理器，带有一个也可用于预处理的 DSP 模块，以及一个同样来自 Synopsis 的安全模块。

“我们所做的其中一件事就是对所有内容进行绝对加密，以在物联网环境中保持一定程度的安全性。我们加密网络，加密微处理器上运行的代码，加密接口，加密一切，”Teig 说。

该芯片具有适用于图像和音频之外的传感器的适当 I/O，并支持外部闪存和/或微处理器，可实现无线更新。这可用于更新芯片上加载的神经网络，或根据需要加载不同的网络。

Ergo 现在正在提供样品以及随附的参考板。预计2020年第二季度量产。

SIMO PMIC 减少了设计占用空间和功耗无线收发器使用 UWB 进行低功耗低延迟数据传输

嵌入式

传感器

云计算

物联网技术