汽车中的人工智能——大脑内部

自动驾驶汽车 (AV)，甚至配备高级驾驶辅助系统 (ADAS) 的汽车，都依赖于来自大量传感器的数据——多个摄像头、激光雷达、雷达，有时甚至是声纳。处理来自这组传感器的数据流是一项艰巨的同时也是至关重要的任务。所有这些数据都必须实时转化为信息，以用于安全驾驶汽车，至少就像完美的人类驾驶员在控制中一样。 “在路上，人类驾驶员需要警惕他们当前的环境，与其他驾驶员互动并做出决定。与人类驾驶员一样，自动驾驶汽车也应该感知、交互并做出决策。此外，自动驾驶汽车应该与乘客建立良好的关系。”¹

这些功能依靠人工智能 (AI) 来吸收来自不同传感器的数据，并将它们组合起来以获得车辆及其动态环境的即时图像——这个过程称为传感器融合。人工智能最适合汽车使用，它采用深度神经网络 (DNN)。 DNN 以人脑处理信息的方式为模型，通过从经验中学习来学习如何穿越真实的驾驶世界，而不是通过程序员告诉他们该做什么。 DNN 的工作原理是接受多个输入，为它们分配不同的权重并进行推理。它需要一个性能极高且节能的计算平台，以便“实时”完成所有这些工作。这可以通过使用处理加速器来加速。

将人工智能付诸实践

为了了解高性能汽车 AI 平台的组成部分，我采访了 CEVA, Inc. 的 Gil Abraham，了解他们实施该平台的工具。

CEVA 的视觉和人工智能业务部门拥有亚伯拉罕所说的三大支柱：NeuPro-M，即人工智能处理器； SensPro，这是一款高性能传感器中枢数字信号处理器（DSP）；和 CDNN-Invite 软件。 CDNN-Invite 允许制造商输入他们自己的专有 DNN 加速器，与 CEVA 的 NeuPro-M AI 处理器以及 SensPro DSP 协同工作，并享受一个统一的系统，可以由相同的内存和流软件开发套件集中管理（ SDK）。

SensPro DSP 可以对来自许多不同传感器（包括多个激光雷达、雷达和摄像头）的输入执行信号处理，并将它们卷积——这个过程称为传感器融合，它将许多传感器的输入聚集在一起。这对于汽车使用至关重要，因为每个传感器都有其自身的局限性。

例如：

相机可以具有非常高的分辨率，因此它们可以感知精细的细节。但您通常需要不止一个来覆盖车辆盲点、后视、环视，以及多个不同焦距的前置摄像头。每个摄像头都将提供一个单独的数据流。此外，不能依靠相机在夜间或面对太阳时正常工作。
雷达在夜间运行良好，可以提供距离测量。但它没有足够高的分辨率来感知物体的精确位置或区分多个彼此靠近的物体。它可能无法检测静止或缓慢移动的物体，也无法检测场景的“语义”：物体的颜色和形状——因为你需要相机。
激光雷达作为自己的光源，因此在黑暗和日光下都表现良好。它还提供具有足够高分辨率的快速准确的测量数据，以便在跟踪场景中的多个对象时进行精确的实时自由空间检测。但要获得足够多的激光雷达数据点，您需要在车辆上安装五六个这样的昂贵设备。

SensPro DSP 可以从这些以及飞行时间 (ToF) 传感器、惯性测量单元 (IMU) 中获取输入，有效地处理同时定位和映射 (SLAM) 的算法并使用它们，可以创建“上下文感知”——汽车及其环境状况的全貌。如果需要，您还可以在硬件中添加专用指令集，以获得其他特定处理的额外加速。

系统集成

NeuPro-M 解决了自动驾驶汽车功能的许多关键挑战，包括高速和低延迟可扩展操作、低运行功率、高安全性以及满足 ISO 26262 安全相关电气/电子系统标准的功能要求的能力在生产道路车辆。它还具有可扩展性，例如，它可以用于单个传感器、区域中的传感器集群，甚至可以作为汽车发动机控制单元 (ECU) 的一部分嵌入。

高性能汽车 AI 平台的架构

CEVA NeuPro-M AI 处理器的功能是做出高级驾驶决策。这些决策基于提供情境信息的 DNN 输入，例如：是否有迎面而来的汽车；是停留在车道上的汽车；什么是绝对位置（SLAM）？

NeuPro-M AI 处理器是根据收到的信息决定采取什么行动的决策者。人工智能需要大量计算才能做出决策，而且这些计算必须接近实时完成。因此，它需要一个强大的处理器。对于汽车应用，还需要最大限度地降低功耗——随着计算次数的增加和执行时间的减少，功耗也会增加。处理器性能的衡量标准可以总结为一个数字：每瓦每秒万亿次操作 (TOPS/watt) — 数字越高，性能越好。 NeuPro-M 的能效为 24 TOPS/watt，明显高于大多数其他汽车 AI 处理器。

安全性是重中之重——事实上，可以说安全性和安全性是汽车应用最重要的要求。自动驾驶汽车中的人工智能处理器是负责的驾驶员。执行 AI 处理的神经网络为其每个输入分配权重，这些权重容易受到恶意篡改。因此，安全系统是处理器不可或缺的一部分，以防范这些攻击。

优化性能

为了优化性能，重要的是要认识到，无论处理器有多快，系统都可能因为向处理器传输信息的带宽限制而陷入瓶颈，这主要是因为内存方面的系统接口限制。计算单元的工作速度比存储和获取大量数据以通知内存所需的时间要快得多。解决这个问题的一种方法是将连续的数据流引导到处理器，而不是等待足够的信息来执行特定的计算。

另一种可以优化性能的方法是自适应的——使用模块化自适应拓扑。处理器拓扑可以针对处理不同类型的传感器和执行不同类型的操作进行优化。例如，一个功能可能是优化动力总成效率，这需要大量的数学运算，或者另一方面它可能只处理单个传感器。

如果您需要非常准确地计算某些东西，您可以在矢量处理器内使用浮点运算而不是定点运算。解决带宽减少的另一种方法是压缩数据，因此您不必在系统中移动所有数据。这些是软件修复，但您还必须通过深入研究来优化 DSP 和 AI 处理器，以解决每个领域的所有瓶颈。

并行处理

NeuPro-M (NPM) 处理器具有三个部分（见图 2）：主控制器； NPM公共子系统；和 NPM 引擎。处理器可以包括从一到八个引擎的任何地方，可以选择这些引擎来满足特定应用程序的需求。处理器操作可以通过选择引擎的数量来扩展。 “这就是你获得越来越大马力的方式，”亚伯拉罕说。

NPM 公共子系统与 NPM 引擎保持持续通信。监控该通道以确保它不会成为瓶颈——以确保数据将继续流入系统。推理 AI 使用两个数据集运行：数据本身，可能是图像；以及权重，该权重应用于数据以进行推理。公共子系统通过对数据和权重进行压缩来保持通道畅通。

并行处理既可以通过使用多个引擎来实现，也可以使用引擎中的协处理器来实现，每个协处理器包含五个协处理器和一个共享的内部存储器。

示例 - 使用四引擎 NPM 控制车辆

图 3 说明了并行处理的简单汽车应用。该图的左侧显示了由前置摄像头拍摄的道路图像。车辆内的处理器阻挡了对面车道，以简化将车辆保持在道路一侧的中心所需的计算，并将图像存储在内存中。存储的图像从车辆内存输入到 NPM 公共子系统，在本例中为四个引擎提供服务。然后，软件会决定用例是什么——需要什么——以及如何分割图像，以便以最小的功率（高利用率）获得所需功能的最大性能。在这种情况下，NPM 将图像分成四个部分，有一些重叠，每个部分被发送到不同的引擎。然后在道路的四个路段中的每一个上运行 AI 推理。然后将这四个段重新拼接到子系统内存中，然后将其输出到 SoC 中其他地方的感知层，以执行所需的任务。

此示例说明了两个级别的并行处理，一个是使用四个引擎处理图像的不同片段，另一个是在每个引擎内，通过在五个内部协处理器之间共享计算进行并行处理。

软件优化

AI 主要通过卷积发挥作用，这是对两个函数的数学运算，产生第三个函数，表示一个函数的形状如何被另一个函数修改。数学家 Shmuel Winograd 发明了一种新的卷积方法，只需通常步骤数的一半。 CEVA 在他们的处理器中实现了这一理论思想，以达到与普通卷积相同的精度，但加速度接近 2 倍——在降低功耗的同时提高了性能。这可以在引擎内的五个协处理器中的每一个中完成。

另一个技巧是对不同的数据类型进行不同的操作，这取决于对于特定应用程序来说哪种是最佳的。例如，同时定位和映射 (SLAM)，需要非常高的精度，因此您必须使用浮点算法。对于其他应用程序，固定数量的位将是完美的。通过这种方式，汽车制造商可以选择最适合车辆内每个功能的计算方法。

根据 Abraham 的说法，通过同时使用软件操作和硬件优化，您可以获得显着的加速 - 使用 NeuPro-M 最高可提高 16 倍。

总结

这是对特定 AI 处理器内部功能的概述，因为它处理来自各种传感器（雷达、激光雷达、声纳、摄像头）的数据并做出决策。 NPM 是一种异构处理器——它可以对不同的数据类型进行操作，并通过使用两个级别的并行处理以及软件的针对性设计来优化其操作（以 TOPS/watt 衡量）。

Fang Chen，博士，SAE Edge 研究报告 — 车辆自主性、人工智能和人机交互方面的悬而未决的问题。

本文由 Sensor Technology 的编辑 Ed Brown 撰写。欲了解更多信息，请联系 Ed，此电子邮件地址已收到垃圾邮件机器人保护。您需要启用 JavaScript 才能查看它。或访问这里 .

智能建筑让您更健康、更快乐为物联网配置智能传感器

传感器