硬件加速器服务于人工智能应用
硬件加速器——用于执行特定任务(如对对象进行分类)的专用设备——越来越多地嵌入到服务于各种 AI 应用程序的片上系统 (SoC) 中。它们有助于创建紧密集成的定制处理器,从而提供更低的功耗、更低的延迟、数据重用和数据局部性。
首先,有必要对 AI 算法进行硬件加速。 AI 加速器专门设计用于更快地处理 AI 任务;它们以传统处理器不可行的方式执行特定任务。
此外,没有一个处理器可以满足 AI 应用程序的多样化需求,在这里,集成到 AI 芯片中的硬件加速器可为特定工作负载提供性能、能效和延迟优势。这就是为什么基于 AI 加速器的自定义架构开始挑战 CPU 和 GPU 用于 AI 应用程序的原因。
AI 芯片设计人员必须确定要加速什么、如何加速以及如何将该功能与神经网络互连。以下是定义硬件加速器在不断发展的 AI 工作负载中使用的关键行业趋势的快照。不可避免地,它始于可用于集成到各种 AI 芯片和卡中的 AI 加速器。
AI 加速器 IP
硬件加速器广泛用于 AI 芯片,以细分和加速数据密集型任务,如用于训练和推理应用的计算机视觉和深度学习。这些 AI 内核可加速 Caffe、PyTorch 和 TensorFlow 等 AI 框架上的神经网络。
Gyrfalcon Technology Inc. (GTI) 设计 AI 芯片并提供 AI 加速器,以通过 IP 许可模式用于定制 SoC 设计。这家位于加利福尼亚州米尔皮塔斯的 AI 新贵分别为边缘和云应用提供 Lightspeeur 2801 和 2803 AI 加速器。
值得注意的是,Gyrfalcon 还围绕这些硬件加速器开发了 AI 芯片,这使得这些 AI 加速器 IP 得到了硅验证。该公司用于边缘设计的 2801 AI 芯片每瓦每秒执行 9.3 tera 运算 (TOPS/W),而其用于数据中心应用的 2803 AI 芯片可以提供 24 TOPS/W。
除了 IP 开发工具和技术文档,Gyrfalcon 还为 AI 设计人员提供 USB 3.0 加密狗,用于模型创建、芯片评估和概念验证设计。被许可方可以在 Windows 和 Linux PC 以及 Raspberry Pi 等硬件开发套件上使用这些加密狗。
硬件架构
AI 加速器的基本前提是比以往更快地处理算法,同时使用尽可能少的功率。它们在边缘、数据中心或介于两者之间的某个地方执行加速。 AI 加速器可以在 ASIC、GPU、FPGA、DSP 或这些设备的混合版本中执行这些任务。
这不可避免地导致出现针对机器学习 (ML)、深度学习、自然语言处理和其他 AI 工作负载优化的多种硬件加速器架构。例如,一些 ASIC 被设计为在深度神经网络 (DNN) 上运行,而后者又可以在 GPU 或其他 ASIC 上进行训练。
AI 加速器架构之所以至关重要,是因为 AI 任务可以大规模并行。此外,人工智能加速器设计与多核实现交织在一起,这凸显了人工智能加速器架构的重要性。
接下来,人工智能设计通过添加越来越多的加速器来对算法进行越来越精细的划分,这些加速器是专门为提高神经网络的效率而创建的。用例越具体,就越有可能精细地使用多种类型的硬件加速器。
在这里,值得一提的是,除了集成到定制芯片中的 AI 加速器之外,加速卡还被用于提高云服务器和本地数据中心的性能并减少延迟。例如,与 CPU 相比,Xilinx Inc. 的 Alveo 加速卡可以从根本上加速数据库搜索、视频处理和数据分析(图 1 ).
图。 1:与高端 CPU 相比,Alveo U250 加速器卡将实时推理吞吐量提高了 20 倍,与高端 GPU 等固定功能加速器相比,将亚 2 毫秒延迟降低了 4 倍以上。 (图片:Xilinx Inc.)
可编程性
AI 设计中发生了很多动态变化,因此,软件算法的变化速度快于 AI 芯片的设计和制造速度。它强调了硬件加速器在这种情况下往往成为固定功能设备的关键挑战。
因此,加速器中必须具有某种可编程性,使设计人员能够适应不断变化的需求。可编程功能带来的设计灵活性还使设计人员能够处理各种 AI 工作负载和神经网络拓扑。
英特尔公司以约 20 亿美元的价格收购了一家位于以色列的可编程深度学习加速器开发商,从而回应了对人工智能设计可编程性的这一呼吁。 Habana 用于训练的 Gaudi 处理器和用于推理的 Goya 处理器提供了一个易于编程的开发环境(图 2 ).
图。 2:这就是开发平台和工具如何使用 Gaudi 训练加速器加速 AI 芯片设计。 (图片:哈瓦那)
边缘人工智能
现在很明显,人工智能推理的市场比人工智能培训大得多。这就是为什么业界见证了各种芯片针对从训练到推理的广泛 AI 工作负载进行优化的原因。
这将微控制器 (MCU) 带入了 AI 设计领域,否则该领域主要与强大的 SoC 相关联。这些 MCU 正在整合 AI 加速器,为资源受限的工业和物联网边缘设备提供服务,例如对象检测、面部和手势识别、自然语言处理和预测性维护。
以 Arm 的 Ethos U-55 microNPU ML 加速器为例,恩智浦半导体正在将其集成到其基于 Cortex-M 的微控制器、交叉 MCU 和应用处理器中的实时子系统中。 Ethos U-55 加速器与 Cortex-M 内核协同工作以实现小尺寸。其先进的压缩技术可节省功耗并显着减小 ML 模型大小,从而能够执行以前只能在大型系统上运行的神经网络。
恩智浦的 eIQ ML 开发环境为 AI 设计人员提供了多种开源推理引擎。根据特定的应用需求,这些 AI 加速器可以集成到各种计算元素中:CPU、GPU、DSP 和 NPU。
嵌入式