亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 嵌入式

边缘人工智能挑战内存技术

随着边缘人工智能的兴起,对存储系统提出了一系列新要求。今天的内存技术能否满足这一具有挑战性的新应用的严格要求?从长远来看,新兴的内存技术对边缘 AI 有何承诺?

首先要意识到的是,没有标准的“边缘人工智能”应用;边缘最广泛的解释涵盖了云之外的所有支持人工智能的电子系统。这可能包括“近边缘”,通常涵盖企业数据中心和本地服务器。

更远的是自动驾驶的计算机视觉等应用。制造网关设备进行人工智能推理,以检查生产线上的产品缺陷。电线杆上的 5G“边缘盒”为交通管理等智慧城市应用分析视频流。 5G 基础设施在边缘使用人工智能来实现复杂但高效的波束成形算法。

在“远端”,手机等设备支持人工智能——想想 Snapchat 过滤器——工厂中的电器和物联网传感器节点的语音控制,在将结果发送到另一个网关设备之前执行传感器融合。

内存在边缘 AI 系统中的作用——存储神经网络权重、模型代码、输入数据和中间激活——对于大多数 AI 应用程序都是一样的。必须加速工作负载以最大化 AI 计算能力以保持高效,因此对容量和带宽的要求通常很高。然而,特定应用的需求多种多样,可能包括尺寸、功耗、低电压操作、可靠性、散热/冷却考虑和成本。

边缘数据中心

边缘数据中心是一个关键的边缘市场。用例范围从医学成像、研究和复杂的金融算法,其中隐私阻止上传到云。另一个是自动驾驶汽车,延迟会阻止它。

这些系统使用与其他应用程序中的服务器相同的内存。

“在开发和训练 AI 算法的应用程序中,将低延迟 DRAM 用于快速、字节级主内存非常重要,”内存产品设计师和开发商 Smart Modular Technologies 的解决方案架构师 Pekon Gupta 说。 “大型数据集需要高容量 RDIMM 或 LRDIMM。系统加速需要 NVDIMM——我们将它们用于写入缓存和检查点,而不是速度较慢的 SSD。”


Pekon Gupta

靠近终端用户的计算节点是电信运营商的做法。

“我们看到了一种趋势,使这些 [telco] 边缘服务器更有能力运行复杂的算法,”Gupta 说。因此,“服务提供商正在使用 RDIMM、LRDIMM 等设备和 NVDIMM 等高可用持久内存为这些边缘服务器添加更多内存和处理能力。”

Gupta 认为英特尔 Optane 是该公司的 3D-Xpoint 非易失性存储器,其特性介于 DRAM 和闪存之间,是服务器 AI 应用程序的良好解决方案。

“Optane DIMM 和 NVDIMM 都被用作 AI 加速器,”他说。 “NVDIMM 为 AI 应用程序加速提供了非常低的延迟分层、缓存、写入缓冲和元数据存储功能。 Optane 数据中心 DIMM 用于内存数据库加速,其中数百 GB 到 TB 的持久内存与 DRAM 结合使用。尽管它们都是用于 AI/ML 加速应用程序的持久内存解决方案,但它们具有不同且独立的用例。”

英特尔傲腾产品营销总监 Kristie Mann 告诉 EE Times Optane 正在服务器 AI 领域获得应用。


英特尔的 Kristie Mann

“我们的客户今天已经在使用 Optane 持久内存来支持他们的 AI 应用程序,”她说。 “它们正在成功地推动电子商务、视频推荐引擎和实时财务分析的使用。由于可用容量的增加,我们看到了向内存应用程序的转变。”

DRAM 的高价越来越使 Optane 成为有吸引力的替代品。配备两个 Intel Xeon 可扩展处理器和 Optane 持久内存的服务器最多可容纳 6 TB 的内存,用于需要大量数据的应用程序。

“DRAM 仍然是最受欢迎的,但从成本和容量的角度来看,它有其局限性,”Mann 说。 “由于其成本、容量和性能优势,诸如 Optane 持久内存和 Optane SSD 之类的新内存和存储技术正在 [新兴] 作为 DRAM 的替代品。 Optane SSD 具有特别强大的缓存 HDD 和 NAND SSD 数据的能力,可以持续为 AI 应用程序提供数据。”

她补充说,Optane 还优于其他目前尚未完全成熟或可扩展的新兴存储器。


英特尔傲腾 200 系列模块。英特尔表示,Optane
如今已用于为 AI 应用程序提供支持。 (来源:英特尔)

GPU 加速

对于高端边缘数据中心和边缘服务器应用程序,像 GPU 这样的 AI 计算加速器越来越受欢迎。除了 DRAM 之外,这里的内存选择还包括 GDDR(一种专为高带宽 GPU 设计的特殊 DDR SDRAM)和 HBM(一种相对较新的芯片堆叠技术,可将多个内存芯片与 GPU 本身放在同一个封装中)。

两者都是为人工智能应用所需的极高内存带宽而设计的。

对于要求最高的 AI 模型训练,HBM2E 提供 3.6 Gbps 并提供 460 GB/s 的内存带宽(两个 HBM2E 堆栈提供接近 1 TB/s)。这是可用的最高性能内存之一,在最小的区域中具有最低的功耗。 GPU 领导者 Nvidia 在其所有数据中心产品中均使用 HBM。

Rambus IP 核产品营销高级总监 Frank Ferro 表示,GDDR6 还用于边缘的 AI 推理应用。 Ferro 表示,GDDR6 可以满足边缘 AI 推理系统的速度、成本和功率要求。例如,GDDR6 可以提供 18 Gbps 并提供 72 GB/s。拥有四个 GDDR6 DRAM 可提供接近 300 GB/s 的内存带宽。

“GDDR6 用于 AI 推理和 ADAS 应用,Ferro 补充道。

在将 GDDR6 与 LPDDR(英伟达用于从 Jetson AGX Xavier 到 Jetson Nano 的大多数非数据中心边缘解决方案的方法)进行比较时,Ferro 承认 LPDDR 适用于边缘或端点的低成本 AI 推理。

“LPDDR 的带宽限制为 LPDDR4 的 4.2 Gbps 和 LPDDR5 的 6.4 Gbps,”他说。 “随着内存带宽需求的增加,我们将看到越来越多的设计使用 GDDR6。这种内存带宽差距有助于推动对 GDDR6 的需求。”


Rambus 的弗兰克·费罗

尽管设计为与 GPU 配合使用,但其他处理加速器可以利用 GDDR 的带宽。 Ferro 重点介绍了 Achronix Speedster7t,这是一种基于 FPGA 的 AI 加速器,用于推理和一些低端训练。

“在边缘 AI 应用中,HBM 和 GDDR 存储器都有空间,”Ferro 说。 HBM“将继续用于边缘应用。尽管 HBM 具有所有优点,但由于 3D 技术和 2.5D 制造,成本仍然很高。鉴于此,GDDR6 是成本和性能之间的一个很好的权衡,尤其是对于网络中的 AI 推理。”

HBM 用于高性能数据中心 AI ASIC,如 Graphcore IPU。虽然它提供了出色的性能,但对于某些应用程序而言,其价格可能会很高。

高通是使用这种方法的公司之一。其 Cloud AI 100 的目标是边缘数据中心、5G“边缘盒”、ADAS/自动驾驶和 5G 基础设施中的 AI 推理加速。

高通公司计算和边缘云部门总经理 Keith Kressin 表示:“对我们来说,使用标准 DRAM 而不是 HBM 之类的东西很重要,因为我们希望降低材料清单。” “我们希望使用您可以从多个供应商处购买的标准组件。我们有想要在芯片上做所有事情的客户,也有想要跨卡的客户。但他们都希望保持合理的成本,而不是追求 HBM 甚至更奇特的内存。

“在训练中,”他继续说道,“你有非常大的模型可以跨越 [多个芯片],但对于推理 [Cloud AI 100 的市场],很多模型都更加本地化。”

边缘

在数据中心之外,边缘 AI 系统通常侧重于推理,但也有一些值得注意的例外,例如联邦学习和其他增量训练技术。

一些用于功耗敏感应用程序的 AI 加速器使用内存进行 AI 处理。基于多维矩阵乘法的推理适用于具有用于执行计算的存储单元阵列的模拟计算技术。使用这种技术,Syntiant 的设备专为消费电子产品的语音控制而设计,而 Gyrfalcon 的设备已设计成智能手机,它们可以处理相机效果的推理。

在另一个例子中,智能处理单元专家 Mythic 使用闪存单元的模拟操作在单个闪存晶体管上存储 8 位整数值(一个权重参数),使其比其他内存计算技术更密集。已编程的闪存晶体管用作可变电阻器;输入作为电压提供,输出作为电流收集。结合 ADC 和 DAC,结果是一个高效的矩阵乘法引擎。

Mythic 的 IP 在于补偿和校准技术,可消除噪声并允许可靠的 8 位计算。


Mythic 使用一组闪存晶体管来制作密集的乘法累加引擎(来源:Mythic)

除了内存计算设备外,ASIC 还广泛用于特定的边缘领域,尤其是低功耗和超低功耗系统。 ASIC 的内存系统使用多种内存类型的组合。分布式本地 SRAM 是最快、最节能的,但不是很节省面积。在芯片上使用单个大容量 SRAM 的面积效率更高,但会引入性能瓶颈。片外 DRAM 更便宜,但耗电更多。

Flex Logix 的首席执行官 Geoff Tate 表示,要在其 InferX X1 的分布式 SRAM、大容量 SRAM 和片外 DRAM 之间找到适当的平衡,需要进行一系列性能模拟。目标是最大限度地提高每美元的推理吞吐量——这是芯片尺寸、封装成本和所用 DRAM 数量的函数。

“最佳点是单个 x32 LPDDR4 DRAM; 4K MAC(933MHz 时 7.5 TOPS);以及大约 10MB 的 SRAM,”他说。 “SRAM 速度很快,但与 DRAM 相比价格昂贵。采用台积电 16 纳米制程技术,1MB SRAM 约需 1.1mm 2 . “我们的 InferX X1 只有 54mm 2 并且由于我们的架构,DRAM 访问在很大程度上与计算重叠,因此不包含性能。对于具有单个 DRAM 的大型模型来说,这是正确的权衡,至少在我们的架构中是这样,”Tate 说。

Flex Logix 芯片将用于需要实时操作的边缘 AI 推理应用,包括分析低延迟的流视频。这包括 ADAS 系统、安全镜头分析、医学成像和质量保证/检查应用。

在这些应用中,什么样的 DRAM 会与 InferX X1 一起出现?

“我们认为 LPDDR 将是最受欢迎的:单个 DRAM 提供超过 10GB/秒的带宽……但有足够的位来存储权重/中间激活,”Tate 说。 “任何其他 DRAM 都需要更多芯片和接口,并且需要购买更多未使用的位。”

这里是否有任何新兴内存技术的发展空间?

“使用任何新兴内存时,晶圆成本都会急剧上升,而 SRAM 是‘免费’的,除了硅面积,”他补充道。 “随着经济的变化,临界点也可能会发生变化,但它会更远。”

新的记忆

尽管规模经济,但其他内存类型为人工智能应用提供了未来的可能性。

MRAM(磁阻 RAM)通过由施加的电压控制的磁体方向存储每一位数据。如果电压低于翻转位所需的电压,则翻转位的可能性很小。这种随机性是不需要的,因此 MRAM 用更高的电压驱动以防止它。不过,一些 AI 应用程序可以利用这种固有的随机性(可以将其视为随机选择或生成数据的过程)。

实验已将其 MRAM 的随机性功能应用于 Gyrfalcon 的设备,这是一种将所有权重和激活的精度降低到 1 位的技术。这用于显着降低远端应用程序的计算和电源要求。可能需要权衡准确性,具体取决于网络的重新训练方式。总的来说,尽管精度有所降低,但神经网络仍能可靠运行。

Spin Memory 产品副总裁 Andy Walker 表示:“二值化神经网络的独特之处在于,即使数字为 -1 或 +1 的确定性降低,它们也能可靠运行。 “我们发现,这种 BNN 仍然可以以高准确度运行,因为这种确定性降低了 [通过] 引入了被错误写入的内存位的所谓‘误码率’。”


旋转记忆的安迪·沃克

MRAM 可以在低电压水平下以受控方式自然地引入误码率,从而在保持精度的同时进一步降低功率要求。关键是确定在最低电压和最短时间下的最佳精度。沃克说,这意味着最高的能源效率。

虽然这项技术也适用于更高精度的神经网络,但它尤其适用于 BNN,因为 MRAM 单元有两个状态,这与 BNN 中的二进制状态相匹配。

Walker 表示,在边缘使用 MRAM 是另一个潜在的应用。

“对于边缘 AI,MRAM 能够在不需要高性能精度的应用中以较低电压运行,但能效和内存耐用性的改进非常重要,”他说。 “此外,MRAM 固有的非易失性允许在没有电源的情况下保存数据。

一种应用是作为所谓的统一存储器,“这种新兴存储器可以作为嵌入式闪存和 SRAM 的替代品,节省芯片面积并避免 SRAM 固有的静态功耗。”

虽然 Spin Memory 的 MRAM 即将被商业采用,但 BNN 的具体实现将在基本 MRAM 单元的变体上效果最佳。因此,仍处于研究阶段。

神经形态 ReRAM

另一个用于边缘 AI 应用的新兴内存是 ReRAM。米兰理工大学最近使用 Weebit Nano 的氧化硅 (SiOx) ReRAM 技术进行的研究显示出神经形态计算的前景。 ReRAM 为神经网络硬件增加了一个可塑性维度;也就是说,它可以随着条件的变化而进化——这是神经形态计算中的一个有用的品质。

当前的神经网络无法在不忘记训练过的任务的情况下学习,而大脑可以很容易地做到这一点。在 AI 术语中,这是“无监督学习”,算法在没有标签的数据集上执行推理,在数据中寻找自己的模式。最终的结果可能是支持 ReRAM 的边缘 AI 系统,可以原位学习新任务并适应周围环境。

总体而言,内存制造商正在引入提供人工智能应用所需的速度和带宽的技术。各种存储器,无论是在与 AI 计算相同的芯片上,在同一封装中,还是在不同的模块上,都可以满足许多边缘 AI 应用。

虽然用于边缘 AI 的内存系统的确切性质取决于应用,但事实证明,GDDR、HBM 和 Optane 在数据中心中很受欢迎,而 LPDDR 在端点应用中与片上 SRAM 竞争。

新兴记忆正将其新颖的特性用于旨在推动神经网络超越当今硬件能力的研究,从而实现未来节能、受大脑启发的系统。

>> 本文最初发表于我们的姊妹网站 EE Times。


嵌入式

  1. 只读存储器 (ROM)
  2. 微处理器
  3. 大数据,不简单:克服工厂维护技术的新挑战
  4. ST 采样嵌入式相变存储器,用于汽车微控制器
  5. 西门子从 Pixeom 收购边缘技术
  6. 超收敛和边缘计算:第 3 部分
  7. 边缘应用技术惠及所有行业
  8. 5G 和边缘技术为 2021 年带来新的网络安全挑战
  9. 更好的 IIoT 资产管理的 4 个技巧和挑战
  10. 3 尖端先进制造技术的主要例子
  11. 直线运动技术
  12. 互联技术如何帮助解决供应链挑战