亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 嵌入式

硬件推理芯片面向汽车应用

总部位于匈牙利的 AImotive 是一家基于软件和硬件的自动驾驶技术开发商,已开始向其主要客户交付其 aiWare3 神经网络 (NN) 硬件推理引擎知识产权 (IP)。

其去年发布的 aiWare3P IP 核为高分辨率汽车视觉应用提供硬件 NN 加速器,并作为 ISO26262 ASIL A、B 及以上认证子系统中的一个组件。内核可以部署在片上系统 (SoC) 中,也可以作为独立的 NN 加速器,作为完全可综合的 RTL 提供;其低级微架构旨在使用比其他硬件 NN 加速器少得多的主机 CPU 或共享内存资源。

专用神经网络加速器,如用于汽车电子平台各个部分的 aiWare3P IP(来源:AImotive)

EE Times Europe 交谈 关于 AIMotive 提供的产品与其他解决方案有何不同,该公司的执行顾问 Tony-King Smith 表示,大多数芯片制造商都用学术术语谈论基于 GPU 和 SoC 的加速器,在实验室环境中进行测试,这并不能很好地转化到现实世界。 “关键的区别在于,有必要了解神经网络的原理,而不是加速器的原理。在我们的解决方案中,没有 DSP,没有 NOC(片上网络)。 aiWare 仅设计用于汽车推理,因此我们能够提供从输入到输出的低延迟。”他补充说,新内核 RTL 输出的改进意味着它可以释放主 CPU 子系统,然后该内核可以连接到任何加速器 SoC。

aiWare3P IP 核集成了一些特性,可提高性能、降低功耗、更大的主机 CPU 卸载和更简单的更大芯片设计布局。每个内核在 2GHz 时提供高达 16 TMAC/s (>32 TOPS),多核和多芯片实施能够提供高达 50+ TMAC/s (>100 INT8 TOPS) – 适用于多摄像头或异构传感器丰富的应用。该内核专为 AEC-Q100 扩展温度操作而设计,包括使用户能够获得 ASIL-B 及以上认证的功能。

IP 核的性能可扩展到每芯片超过 50 TMAC/s (>100 TOPS) 和低延迟持续推理是其低级微架构的结果。它使用获得专利的全新设计来实现高度确定性的数据流管理,具有高度并行的以内存为中心的架构,其片上内存带宽比其他硬件 NN 加速器高 100 倍,确保与大型输入,例如多个高清摄像头。

支持 Khronos 的 NNEF 以及开放标准 ONNX 输入,aiWare SDK 直接编译二进制文件,无需对 DSP 或 MCU 进行低级编程。它包括用于 FP32 到 INT8 量化的自动化工具,精度损失很小或没有损失,以及不断增长的复杂 DNN 性能分析工具组合。后者旨在帮助软件和 AI 工程师将在实验室中训练的神经网络迁移和转换为在由 aiWare 驱动的生产汽车硬件平台上执行的高效实时解决方案。

汽车 AI 加速器的构建块,包括 aiWare 硬件 IP(来源:AImotive)

AImotive 硬件工程高级副总裁 Marton Feher 表示:“我们的生产就绪 aiWare3P 版本汇集了我们所知道的关于加速基于视觉的汽车 AI 推理应用的神经网络的所有知识。我们现在拥有汽车行业最高效、最引人注目的神经网络加速解决方案之一,用于批量生产 L2/L2+/L3 AI。”

aiWare3P 硬件 IP 被部署在一系列 L2/L2+ 生产解决方案中,并被用于研究更先进的异构传感器应用。客户包括 Nextchip 为其即将推出的 Apache5 成像边缘处理器,以及安森美半导体与 AImotive 的合作项目,以展示先进的异构传感器融合功能。

AImotive 表示将在 2020 年第一季度发布基于 aiWare3P IP 核的公开基准测试结果的完整更新。这是其承诺使用控制良好的基准进行开放基准测试的一部分,这些基准反映了真实的应用,例如相机的高分辨率输入,而不是使用 224×224 输入的不切实际的公共基准。

无需主机 CPU 干预

aiWare3P 硬件 IP 的新特性包括支持更大的预优化嵌入式激活和池化功能组合,确保大多数 NN 100% 在 aiWare3P 内核内执行,而无需任何主机 CPU 干预;实时数据压缩,减少外部存储器带宽要求——尤其是对于更大的输入大小和更深的网络;以及C-LAM卷积引擎和F-LAM函数引擎之间的高级交叉耦合,以提高重叠和交错执行效率。

基于物理块的微架构通过最大限度地减少任何工艺节点上的困难时序约束,使大型 aiWare 内核的物理实现更容易;和基于逻辑块的数据管理可实现高效的工作负载可扩展性,最高可达每核 16 TMAC/s,无需缓存、NOC 或其他复杂的基于多核处理器的方法,这些方法会产生瓶颈、降低确定性并消耗更多功率和硅区 aiWare3P RTL 将于 2020 年 1 月向所有客户发货,升级后的 SDK 包括改进的编译器和新的性能分析工具,用于离线估计和实时细粒度目标硬件分析。


嵌入式

  1. 英飞凌推出适用于汽车应用的 TLE985x 嵌入式电源系列
  2. AI 芯片架构以图处理为目标
  3. 硬件加速器服务于人工智能应用
  4. 霍尔传感器针对安全关键的汽车系统
  5. 30 fps 汽车成像雷达处理器亮相
  6. EKF:适用于铁路、汽车、工业应用的坚固型壁挂式箱式平台
  7. Portwell:19” 系统面向视频墙应用
  8. 汽车应用中的碳纤维
  9. 用于要求严苛的汽车应用的增韧、热稳定的 PPA 化合物
  10. 针对汽车、航空航天应用的 SGL Carbon 技术
  11. 汽车制造中的机器人:7 大应用
  12. 克服汽车产品开发中的芯片缺陷挑战