革命性的人工智能芯片超越晶体管限制,提供强大的计算能力
电子与传感器内幕
普林斯顿大学的研究人员完全重新构想了计算物理,为现代人工智能工作负载构建了芯片。在美国政府的新支持下,他们将看到这款芯片的速度、紧凑性和能效有多快。早期的原型如上图所示。 (图片来源:贾红阳/普林斯顿大学)国防部最大的研究组织与普林斯顿大学领导的项目合作,开发用于人工智能的先进微芯片。
电气和计算机工程教授纳文·维尔马 (Naveen Verma) 表示,新硬件重新设计了适合现代工作负载的芯片,可以使用比当今最先进的半导体少得多的能源来运行强大的人工智能系统。领导该项目的维尔马表示,这些进步突破了阻碍人工智能芯片发展的关键障碍,包括尺寸、效率和可扩展性。
可以部署需要较少能量的芯片,以便在更加动态的环境中运行人工智能,从笔记本电脑和手机到医院、高速公路,再到近地轨道等。为当今最先进模型提供动力的芯片过于庞大且效率低下,无法在小型设备上运行,因此它们主要局限于服务器机架和大型数据中心。
现在,美国国防高级研究计划局 (DARPA) 宣布将拨款 1860 万美元,支持 Verma 基于他实验室的一系列关键发明的工作。 DARPA 的资金将推动对新芯片的速度、紧凑性和能效的探索。
“最好的人工智能仅存在于数据中心,有一个非常重要的限制,”维尔马说。 “你可以从中解锁它,以及我们从人工智能中获取价值的方式爆炸。”
该公告是 DARPA 为下一代人工智能计算的“科学、设备和系统的革命性进步”提供资金的更广泛努力的一部分。该计划名为 OPTIMA,包括跨多所大学和公司的项目。尽管 DARPA 尚未披露完整的机构名单或该项目迄今为止已授予的资金总额,但该项目的提案征集估计总资金为 7800 万美元。
在普林斯顿大学领导的项目中,研究人员将与 Verma 的初创公司 EnCharge AI 合作。 EnCharge AI 总部位于加利福尼亚州圣克拉拉,正在将基于 Verma 实验室发现的技术商业化,其中包括他早在 2016 年与电气工程研究生共同撰写的几篇重要论文。
Verma 于 2022 年与前 IBM 院士 Kailash Gopalakrishnan 和半导体系统设计领导者 Echere Iroaga 共同创立了 EnCharge AI。
Gopalakrishnan 表示,当人工智能开始对计算能力和效率产生大量新需求时,现有计算架构的创新以及硅技术的改进开始放缓。即使是用于运行当今人工智能系统的最好的图形处理单元 (GPU),也无法缓解行业面临的内存和计算能源瓶颈。 “虽然 GPU 是当今最好的可用工具,”他说,“但我们得出的结论是,需要一种新型芯片来释放人工智能的潜力。”
普林斯顿大学凯勒工程教育创新中心主任 Verma 表示,从 2012 年到 2022 年,人工智能模型所需的计算能力增长了约 100 万%。为了满足需求,最新的芯片封装了数百亿个晶体管,每个晶体管之间的宽度只有一个小病毒的宽度。然而,这些芯片的计算能力仍然不足以满足现代需求。
当今的领先模型将大型语言模型与计算机视觉和其他机器学习方法相结合,每个模型都使用超过一万亿个变量来开发。推动人工智能热潮的英伟达设计的 GPU 变得非常有价值,据报道,各大公司都通过装甲车运输它们。购买或租赁这些芯片的积压已经达到了极限。
当英伟达成为第三家估值达到 2 万亿美元的公司时,《华尔街日报》报道称,该公司不断增长的收入中所占份额的快速增长并非来自模型的开发(称为训练),而是来自经过训练后能够使用人工智能系统的芯片。技术人员将此部署阶段称为推理。 Verma 表示,推理是他的研究在中短期内影响最大的领域。
“这一切都是为了分散人工智能,将其从数据中心释放出来,”他说。 “它必须从数据中心转移到我们以及对我们最重要的流程最能访问计算的地方,那就是电话、笔记本电脑、工厂等。”
为了创建能够在紧凑或能源受限的环境中处理现代人工智能工作负载的芯片,研究人员必须完全重新构想计算的物理原理,同时设计和封装可以使用现有制造技术制造的硬件,并且能够与现有计算技术(例如中央处理单元)良好配合。
“人工智能模型的规模呈爆炸式增长,”维尔马说,“这意味着两件事。”人工智能芯片需要在数学计算方面变得更加高效,在管理和移动数据方面也需要更加高效。
他们的方法分为三个关键部分。
几乎每台数字计算机的核心架构都遵循一种看似简单的模式,该模式最初开发于 20 世纪 40 年代:在一个地方存储数据,在另一个地方进行计算。这意味着在存储单元和处理器之间传输信息。在过去的十年中,Verma 率先研究了一种更新方法,其中计算直接在内存单元中完成,称为内存计算。这是第一部分。内存计算有望减少移动和处理大量数据所花费的时间和能源。
但到目前为止,内存计算的数字方法还非常有限。维尔马和他的团队转向了另一种方法:模拟计算。这是第二部分。
“在内存计算的特殊情况下,你不仅需要高效地进行计算,”Verma 说,“你还需要以非常高的密度进行计算,因为现在它需要适合这些非常小的内存单元。”模拟计算机不是将信息编码为一系列 0 和 1,然后使用传统逻辑电路处理该信息,而是利用设备更丰富的物理特性。齿轮的曲率。电线保持电荷的能力。
数字信号在 20 世纪 40 年代开始取代模拟信号,主要是因为随着计算的指数级增长,二进制代码可以更好地扩展。但数字信号并没有深入了解设备的物理原理,因此它们可能需要更多的数据存储和管理。这样他们的效率就较低。模拟通过利用设备的固有物理特性处理更精细的信号来提高效率。但这可能会牺牲精度。
“关键在于找到适合该工作的物理原理,使设备能够得到很好的控制并能够大规模生产,”Verma 说。
他的团队找到了一种方法,使用专门设计用于精确开关的电容器生成的模拟信号来进行高精度计算。这是第三部分。与晶体管等半导体器件不同,通过电容器传输的电能不依赖于材料中的温度和电子迁移率等可变条件。 “它们只依赖于几何形状,”维尔马说。 “它们取决于一根金属线和另一根金属线之间的空间。”几何形状是当今最先进的半导体制造技术可以控制得非常好的一件事。
来源
传感器