亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 嵌入式

AI 先驱说,当前的 AI 硬件重点被误导了

“在异国情调的硬件上取得成功真的很难,”Facebook 首席人工智能科学家 Yann Le Cun 在他在 NeurIPS 的主题演讲中告诉听众。 12 月,在加拿大温哥华举行的全球人工智能专家聚会上,Le Cun 调查了用于处理神经网络工作负载的专用计算芯片的历史,提供了 Facebook 正在开展的工作的一瞥,并对深度计算的未来做出了一些预测。学习硬件。

古代历史

Le Cun 是人工智能领域著名的远见者,在 1980 年代和 1990 年代一直处于神经网络研究的前沿。作为 1980 年代后期贝尔实验室的研究员,他研究了最早类型的专用神经网络处理器,这些处理器包括电阻阵列并用于执行矩阵乘法。随着神经网络在 1990 年代末和 2000 年代初失宠,Le Cun 是少数继续在该领域工作的科学家之一。在他的主题演讲中,他分享了他在那段时间学到的有关深度学习硬件的一些知识。


Facebook 首席人工智能科学家 Yann Le Cun

首先,工具真的很重要。在 90 年代(暂时)杀死神经网络的是,只有少数人——包括 Le Cun——拥有训练它们的工具。 Le Cun 和他的同事花了很多时间构建了现在被称为深度学习的框架:一个灵活的软件,可以解释前端语言,让研究人员能够训练和试验神经网络。研究人员的工作提出了一个概念,即深度学习系统可以由可区分的模块组装,然后自动区分。虽然在当时很新颖,但现在这是普遍做法。

他说,正确的工具赋予了 Le Cun 的团队“超能力”,也是产生可重复结果的重要因素。 “好的结果是不够的......即使你得到好的结果,人们仍然会持怀疑态度,”他说。 “使这些结果具有可重复性几乎与首先实际产生结果一样重要。”

Le Cun 表示,除了合适的工具外,硬件性能对研究界也至关重要,因为硬件限制会影响整个研究方向。

“[什么] 硬件社区为研究或培训而构建,实际上会影响人们的想法,”他说。 “即使它们是好主意,也可能因为硬件不够强大而放弃整个想法。”

他说,答案可能不在于新的和新颖的计算形式,并指出许多奇特的制造技术在不适应现有计算环境时未能起飞。

Le Cun 对当今用于 AI 加速的硬件解决方案感到沮丧的一个原因是,大多数都是为矩阵乘法而构建的,而不是卷积,这是当今大多数图像处理和语音识别神经网络中使用的关键数学运算。 “[主流方法]将变得越来越错误,因为我们将对权力提出越来越大的要求,”他说。 “如果我们构建一个通用硬件,其中 95% 的周期都花在卷积上,我们就做得不好。”

杀手级应用

正如 Le Cun 所描述的那样,未来将看到卷积神经网络 (CNN) 用于从玩具到真空吸尘器再到医疗设备的所有领域。但杀手级应用——将证明人工智能对消费者设备的价值的一种应用——是增强现实耳机。

Facebook 目前正在开发 AR 眼镜的硬件。这是一个巨大的硬件挑战,因为低延迟所需的处理量仅由电池供电。 “当你移动时,世界上的重叠物体应该随着世界移动,而不是和你一起移动,这需要相当多的计算,”勒存说。

Facebook 设想通过语音操作并通过实时手部跟踪通过手势进行交互的 AR 眼镜。虽然这些功能在今天是可能的,但它们在功耗、性能和外形方面超出了我们的能力。 Le Cun 指出了一些可以提供帮助的“技巧”。

例如,当在视频的每一帧上运行相同的神经网络时——也许是为了检测物体——一帧的结果是否错误并不重要,因为我们可以查看它前后的帧并检查一致性.

“所以你可以想象使用并不完美的极低功耗硬件;换句话说,你可以偶尔[容忍]位翻转,”Le Cun说。 “通过降低电源电压很容易做到这一点。”

神经网络发展

神经网络的快速演进是硬件设计的一大挑战。例如,动态网络——那些具有记忆力的网络,可以训练来学习顺序或时变模式——越来越受欢迎,尤其是对于自然语言处理 (NLP)。但是,它们的行为与当前硬件所做的许多假设不同。编译时无法优化计算图;这必须在运行时完成。实现批处理也相当困难,这是一种流行的技术,通过它一次处理多个样本以提高性能。

“我们拥有的所有最常见的硬件都假设您可以进行批处理,因为如果您有一个包含多个样本的批处理,那么您可以将每个操作转换为矩阵乘法,包括卷积和全连接网络,”说乐村。 “[It] 对硬件社区来说是一个挑战,即通过使用批量大小 =1 创建不会损失性能的架构。当然,这适用于训练;训练的最佳批次大小为 1。我们使用更多,因为我们的硬件迫使我们这样做。”

自我监督学习

Le Cun 表示,硬件面临的另一个挑战是,我们目前使用的学习范式将会发生变化,而且这即将发生。

“有很多工作 [正在完成] 试图让机器学习更像人类和动物,而人类和动物不会通过监督学习甚至强化学习来学习,”他说。 “他们通过我称之为自我监督学习的东西来学习,这主要是通过观察。”

Le Cun 描述了一种常见的自监督学习方法,其中一段样本被屏蔽,系统被训练以根据可用的样本部分来预测被屏蔽片段的内容。这通常用于图像,其中图像的一部分被删除,文本,一个或多个单词被删掉。迄今为止的工作表明,它对 NLP 特别有效;使用的网络类型,transformer,有一个使用自监督学习的训练阶段。

Le Cun 表示,从硬件角度来看,问题在于 NLP 的 Transformer 网络可能是巨大的:当今最大的 Transformer 网络有 50 亿个参数,并且还在快速增长。网络太大了,无法放入 GPU 内存中,必须将其分解成碎片。

“自我监督学习是未来——毫无疑问[关于那个],”他说。 “但这对硬件社区来说是一个挑战,因为内存需求绝对是巨大的。因为这些系统是用大量未标记的数据训练的,所以我们可以在数据方面训练非常大的网络。最终系统的硬件要求将比目前大得多。硬件竞赛不会很快停止。”

硬件趋势

使用模拟计算、自旋电子学和光学系统等技术的新硬件创意受到 Le Cun 的关注。他指出通信困难——在新硬件和其他所需计算基础设施之间转换信号的问题——是一个很大的缺点。他说,模拟实现依赖于使激活极其稀疏以获得能源消耗方面的优势,他质疑这是否总是可能的。

Le Cun 将自己描述为对诸如尖峰神经网络和神经形态计算之类的未来派新方法“持怀疑态度”。他说,在为它们制造芯片之前,需要证明这些算法有效。

“通过硬件来驱动此类系统的设计,希望有人提出一种使用该硬件的算法,这可能不是一个好主意,”Le Cun 说。

神经网络处理时间表

1980 年代后期 :电阻阵列用于进行矩阵乘法。到 1980 年代后期,阵列已经在它们周围增加了放大器和转换器,但按照今天的标准仍然相当原始。限制是数据输入芯片的速度。
1991 :第一个专为卷积神经网络 (CNN) 设计的芯片已建成。该芯片能够对二进制数据进行每秒 320 次千兆运算 (GOPS),其数字移位寄存器可最大限度地减少执行卷积所需的外部流量,从而加快运算速度。该芯片没有在学术界之外使用。
1992 :模拟神经网络ALU芯片ANNA亮相。 ANNA 专为具有 6 位权重和 3 位激活的 CNN 设计,在 0.9-μm CMOS 中包含 180,000 个晶体管。它用于手写文本的光学字符识别。
1996 :DIANA,ANNA 的数字版本,发布。但随着神经网络在 1990 年代中期失宠,DIANA 最终被重新用于手机信号处理。
2009–2010 :研究人员在 FPGA(赛灵思 Virtex 6)上演示了硬件神经网络加速器。它运行了一个用于自动驾驶语义分割的演示,在大约 0.5 W 的情况下能够达到 150 GOPS。来自普渡大学的团队试图基于这项工作制作 ASIC,但该项目被证明没有成功。 (来源:Yann Le Cun/Facebook)


嵌入式

  1. 并联电池
  2. 当前分隔符
  3. BJT 怪癖
  4. IGBT
  5. DIAC
  6. 抵抗
  7. 什么是仪表?
  8. 当前信号系统
  9. 分支当前方法
  10. 工业物联网安全建立在硬件上
  11. 硬件加速器服务于人工智能应用
  12. 什么是电流表?