亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 嵌入式

支持 AI 的 SoC 处理多个视频流

Ambarella 推出两款用于计算机视觉和 AI 处理的设备,来自多个或安全摄像头和智慧城市系统的单一输入。

图像处理专家 Ambarella 推出了两款用于单传感器和多传感器安全摄像头的新 SoC,每款都具有由公司的 CVflow AI 加速器引擎支持的新 AI 功能。两者都支持4K视频编码和高级AI处理,例如面部识别或车牌识别。

CV5S SoC 面向多传感器相机系统,可对四个分辨率高达 8MP/4K 的成像器通道进行编码,每个通道的速度为每秒 30 帧 (fps),同时对每个 4K 图像流执行高级 AI。它最多可以处理 14 个输入。 SoC 系列将 Ambarella 上一代产品的编码分辨率和内存带宽提高了一倍,同时功耗降低了 30%。它消耗 <5W 并提供 12 eTOPS(相当于 GPU 的 TOPS,Ambarella 衡量运行相同 AI 处理任务所需的 GPU 马力量)。

另一款新 SoC CV52S 面向单传感器相机,支持 60 fps 的 4K 分辨率。与前几代 Ambarella SoC 相比,这款新设备的 AI 性能提高了四倍,CPU 吞吐量提高了一倍,内存带宽提高了 50%。它消耗 <3 W 并提供 6 eTOPS。

性能提升源于向 5 纳米工艺节点的迁移以及对 Ambarella 内部 CVflow AI 加速器块的改进和扩大。

Ambarella 的高级营销总监杰罗姆·吉戈特 (Jerome Gigot) 说:“你看到所有这些初创公司都来自世界各地,都说他们的每瓦特人工智能性能最好,而且他们可能是对的。” “但这并不能制造相机,也不能制造产品。如果你只有一个人工智能加速器,你就只有一个人工智能加速器。”

Gigot 指出,4K 或 8K 视频的成像管道很复杂,需要处理大量数据,编码大量数据,将这些数据传输到一个特殊的块进行 AI 处理,同时可能在顶部运行 Linux 堆栈。在保持视频质量的同时,在低功耗预算下很难实现这一目标。


CV52S 的目标是单传感器设计,如交通监控和其他智慧城市应用中的设计(来源:Ambarella)

除了 CVflow AI 加速器,两款新 SoC 还包括 Ambarella 的图像信号处理器 (ISP),可处理色彩处理、自动曝光、自动白平衡和噪声过滤等功能。

“这个街区我们已经开发了 16 年,”Gigot 说。 “这就是为什么我们认为初创公司还有很长的路要走。他们可以许可 [来自其他地方的 ISP 块],但就内存访问和其他一切而言,它并没有真正与系统的其余部分集成。”

内存系统是公司的关键IP之一。

“我们有一个内存控制器,我们协调整个过程,以便我们在片上获取数据。我们尽量不制作任何副本,”Gigot 说。 “我们移动指针,我们不移动数据。只有从头开始设计整个架构,并确切知道芯片将要做什么,这才有可能。”

加速器引擎

AI 加速器是一种矢量处理器,可以加速卷积和其他常见的 AI 功能,或用于经典的计算机视觉工作负载。用户还可以选择运行部分神经网络(例如单次检测器网络中的排序算法)或通过片上双核 Arm Cortex-A76 CPU。

软件堆栈允许应用程序利用系数稀疏性,这是一种将值接近零的网络系数向下舍入为零的技术。该方法可以从算法中“修剪”整个计算“分支”,从而大大降低计算需求。

稀疏化“对我们来说是一种非常有效的技术,因为当系数为零时,在我们的架构中我们不进行操作,我们有一个跳过 [函数],”他说。 “所以我们不计算该系数的结果。我们几乎需要零周期。”

Gigot 说,该过程通常会将 50% 到 80% 的系数确定为稀疏化目标。稀疏化后通常需要进行一些小的再训练,以重新获得过程中丢失的预测精度。根据 Gigot 的说法,重新训练通常可以将准确率降低到原始模型的 1% 以内——对于大多数客户来说这是一个可以接受的折衷,尤其是在模型尺寸减少 5 倍的情况下。 Ambarella 还致力于开发更具有架构意识的稀疏化和量化工具。

点击查看全尺寸图片

用于多传感器相机系统的 CV5S SoC 包括最新一代 Ambarella 的 CVflow AI 和计算机视觉加速器(来源:Ambarella)

能够接受多达 14 个视频流,然后同时对这些流执行 AI,客户是否会同时运行多个神经网络?是否需要某种多路复用方案?


Jerome Gigot(来源:Ambarella)

Gigot回答说是的。 “CVflow 是一个非常快的矢量引擎,一个非常快的卷积引擎。一切都是时分复用的。我们在硬件中有不同的路径,因此我们可以并行化操作,但我们不会将其绑定到特定网络 [这] 与 GPU 上的批处理完全不同。”

批处理是大型 GPU 经常采用的一种技术,它将图像分组并发送它们以进行并行处理。 GPU 已经加载了其他参数。这种方法不必在操作之间切换,从而降低了计算成本。

对于像 CVflow 这样的小型引擎,更大的神经网络必须分解成块进行处理,因为芯片的内存不能一次存储所有参数。连续的块可能来自同一个神经网络,或另一个网络,或另一个通道输入。 Gigot 说,CVflow 上的典型硬件利用率在 70% 到 80% 之间,并补充说切换网络/频道不会影响效率。

CV5S 和 CV52S 预计将于 2021 年 10 月开始出样。

>> 本文最初发表在我们的姊妹网站 EE次。


相关内容:

有关 Embedded 的更多信息,请订阅 Embedded 的每周电子邮件通讯。


嵌入式

  1. Java 捕获多个异常
  2. Microchip:基于 PolarFire FPGA 的解决方案支持最小尺寸的 4K 视频和成像
  3. Rutronik:来自 Redpine Signals 的多协议无线 SoC 和模块
  4. Renesas:具有 MIPI-CSI2 输入的全高清 LCD 视频控制器
  5. 使用多个推理芯片需要仔细规划
  6. 先进的 SoC 为医疗物联网设计带来翻天覆地的变化
  7. 视频处理器支持电池供电设计的 4K 视频编码
  8. Abaco Systems:坚固耐用的 XMC 图形和视频板
  9. Portwell:19” 系统面向视频墙应用
  10. 集成多个生物传感器的微型模块
  11. Java 8 - 流
  12. CNC 机械师视频