支持 AI 的 SoC 处理多个视频流

Ambarella 推出两款用于计算机视觉和 AI 处理的设备，来自多个或安全摄像头和智慧城市系统的单一输入。

图像处理专家 Ambarella 推出了两款用于单传感器和多传感器安全摄像头的新 SoC，每款都具有由公司的 CVflow AI 加速器引擎支持的新 AI 功能。两者都支持4K视频编码和高级AI处理，例如面部识别或车牌识别。

CV5S SoC 面向多传感器相机系统，可对四个分辨率高达 8MP/4K 的成像器通道进行编码，每个通道的速度为每秒 30 帧 (fps)，同时对每个 4K 图像流执行高级 AI。它最多可以处理 14 个输入。 SoC 系列将 Ambarella 上一代产品的编码分辨率和内存带宽提高了一倍，同时功耗降低了 30%。它消耗 <5W 并提供 12 eTOPS（相当于 GPU 的 TOPS，Ambarella 衡量运行相同 AI 处理任务所需的 GPU 马力量）。

另一款新 SoC CV52S 面向单传感器相机，支持 60 fps 的 4K 分辨率。与前几代 Ambarella SoC 相比，这款新设备的 AI 性能提高了四倍，CPU 吞吐量提高了一倍，内存带宽提高了 50%。它消耗 <3 W 并提供 6 eTOPS。

性能提升源于向 5 纳米工艺节点的迁移以及对 Ambarella 内部 CVflow AI 加速器块的改进和扩大。

Ambarella 的高级营销总监杰罗姆·吉戈特 (Jerome Gigot) 说：“你看到所有这些初创公司都来自世界各地，都说他们的每瓦特人工智能性能最好，而且他们可能是对的。” “但这并不能制造相机，也不能制造产品。如果你只有一个人工智能加速器，你就只有一个人工智能加速器。”

Gigot 指出，4K 或 8K 视频的成像管道很复杂，需要处理大量数据，编码大量数据，将这些数据传输到一个特殊的块进行 AI 处理，同时可能在顶部运行 Linux 堆栈。在保持视频质量的同时，在低功耗预算下很难实现这一目标。

CV52S 的目标是单传感器设计，如交通监控和其他智慧城市应用中的设计（来源：Ambarella）

除了 CVflow AI 加速器，两款新 SoC 还包括 Ambarella 的图像信号处理器 (ISP)，可处理色彩处理、自动曝光、自动白平衡和噪声过滤等功能。

“这个街区我们已经开发了 16 年，”Gigot 说。 “这就是为什么我们认为初创公司还有很长的路要走。他们可以许可 [来自其他地方的 ISP 块]，但就内存访问和其他一切而言，它并没有真正与系统的其余部分集成。”

内存系统是公司的关键IP之一。

“我们有一个内存控制器，我们协调整个过程，以便我们在片上获取数据。我们尽量不制作任何副本，”Gigot 说。 “我们移动指针，我们不移动数据。只有从头开始设计整个架构，并确切知道芯片将要做什么，这才有可能。”

加速器引擎

AI 加速器是一种矢量处理器，可以加速卷积和其他常见的 AI 功能，或用于经典的计算机视觉工作负载。用户还可以选择运行部分神经网络（例如单次检测器网络中的排序算法）或通过片上双核 Arm Cortex-A76 CPU。

软件堆栈允许应用程序利用系数稀疏性，这是一种将值接近零的网络系数向下舍入为零的技术。该方法可以从算法中“修剪”整个计算“分支”，从而大大降低计算需求。

稀疏化“对我们来说是一种非常有效的技术，因为当系数为零时，在我们的架构中我们不进行操作，我们有一个跳过 [函数]，”他说。 “所以我们不计算该系数的结果。我们几乎需要零周期。”

Gigot 说，该过程通常会将 50% 到 80% 的系数确定为稀疏化目标。稀疏化后通常需要进行一些小的再训练，以重新获得过程中丢失的预测精度。根据 Gigot 的说法，重新训练通常可以将准确率降低到原始模型的 1% 以内——对于大多数客户来说这是一个可以接受的折衷，尤其是在模型尺寸减少 5 倍的情况下。 Ambarella 还致力于开发更具有架构意识的稀疏化和量化工具。

点击查看全尺寸图片

用于多传感器相机系统的 CV5S SoC 包括最新一代 Ambarella 的 CVflow AI 和计算机视觉加速器（来源：Ambarella）

能够接受多达 14 个视频流，然后同时对这些流执行 AI，客户是否会同时运行多个神经网络？是否需要某种多路复用方案？

Jerome Gigot（来源：Ambarella）

Gigot回答说是的。 “CVflow 是一个非常快的矢量引擎，一个非常快的卷积引擎。一切都是时分复用的。我们在硬件中有不同的路径，因此我们可以并行化操作，但我们不会将其绑定到特定网络 [这] 与 GPU 上的批处理完全不同。”

批处理是大型 GPU 经常采用的一种技术，它将图像分组并发送它们以进行并行处理。 GPU 已经加载了其他参数。这种方法不必在操作之间切换，从而降低了计算成本。

对于像 CVflow 这样的小型引擎，更大的神经网络必须分解成块进行处理，因为芯片的内存不能一次存储所有参数。连续的块可能来自同一个神经网络，或另一个网络，或另一个通道输入。 Gigot 说，CVflow 上的典型硬件利用率在 70% 到 80% 之间，并补充说切换网络/频道不会影响效率。

CV5S 和 CV52S 预计将于 2021 年 10 月开始出样。

>> 本文最初发表在我们的姊妹网站 EE次。

相关内容：

AI 视觉处理器可在 2W 下以 30fps 的速度播放 8K 视频
Ambarella 使用新型相机 SoC 实现智能边缘感应
FPGA 取代了 Subaru Eyesight 基于视觉的 ADAS 中的 ASIC
Arm 增加了 CPU、GPU 和 ISP 以实现自主和视觉安全
低功耗 AI 视觉板使用单节电池可持续使用“数年”

有关 Embedded 的更多信息，请订阅 Embedded 的每周电子邮件通讯。

Wearable 展示了非接触式支付设计方法混合架构加速人工智能、视觉工作负载

嵌入式

传感器

云计算

物联网技术