亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 物联网技术

可靠性验证在 AI/ML 处理器中的重要性

随着人工智能和机器学习在各种应用中的采用,人工智能/机器学习处理器的可靠性验证至关重要,因为故障可能会产生重大后果验证 AI/ML 技术的有效性和合法性。

在过去几年中,在广泛的应用中部署人工智能 (AI) 和机器学习 (ML) 的公司数量迅速增加。事实上,研究表明,2019 年是采用 AI 和 ML 的企业创纪录的一年,这些公司认为这两个功能是实现其业务战略和目标最需要的。这种越来越多的采用主要是由于算法的改进、硬件设计的进步以及信息数字化所产生的数据量的增加。

然而,为了支持和维持 AI/ML 的发展,公司必须继续向市场证明他们通过 AI/ML 技术获得的结果是值得信赖的。这种信任始于作为 AI/ML 功能基础的集成电路 (IC) 的设计和验证。

人工智能和机器学习的分类

AI 处理可以大致分为数据中心/云端或嵌入式,这取决于它是在云端/数据中心站点上执行,还是在最终用户端(通过嵌入专用的 AI 芯片或 AI 协处理器引擎与设备内部或边缘的片上系统 (SOC))。在这种情况下,边缘是指本地服务器或比数据中心或云更靠近设备的机器。

就目标应用而言,边缘设备可分为训练(ML)或推理。从历史上看,训练部分在云站点上完成,推理部分在云端或边缘设备上处理。随着新的高性能边缘计算解决方案的开发,我们正在目睹范式转变,因为越来越多的培训活动正在转移到边缘侧。

人工智能/机器学习芯片设计

边缘计算解决方案中或嵌入本地设备中的 AI/ML 芯片专为在特定环境中使用而设计,例如企业、汽车、工业、医疗保健、物联网 (IoT) 等。其中一些应用程序是关键任务,这意味着任何失败都可能导致现实世界中的灾难性后果。例如,考虑汽车内部使用的高级驾驶员辅助系统 (ADAS)。如果 ADAS 处理器在从传感器读取数据并进行推理时遇到超过给定的延迟,则可能会导致冲突。

AI/ML 应用中使用的 IC 具有大型并行处理计算单元、高功耗和复杂电路的特点,可以在严格的功率预算内提供最大性能。虽然一些公司使用传统的中央处理器 (CPU) 来执行与 AI 相关的任务,但一些行业专家认为,由于最先进的 AI 算法的分布式特性,使用 CPU 的效率并不高。这些算法确实适合并行计算解决方案,例如图形处理单元 (GPU) 提供的解决方案。由于其可重新配置的特性,现场可编程门阵列 (FPGA) 也引起了人们对用作 AI 芯片加速器的兴趣。

AI/ML 应用中的 ASIC

总体而言,越来越多的人认为 AI 和 ML 的棘手问题并不适合一刀切的设计解决方案。为了解决这个问题,许多公司开发了自己的专用 IC (ASIC),并结合软件堆栈对其进行优化,以便为给定的 AI/ML 应用提供最佳价值(图 1)。

图 1. ASIC AI 芯片设计框图。

这些公司声称使用这些 ASIC 可以获得各种好处,例如更好的性能、每个周期的更多操作、与 CPU 或 GPU 相比更简单和更具确定性的设计、节省面积(由于排除了在CPU)、更低的功耗和更快的开发时间。

异构计算

异构计算的使用也有所增加——系统使用不同计算核心类型的组合,努力结合不同功能的最佳优势。例如,在使用 CPU 和 GPU 组合的系统中,异构计算可以通过将并行任务卸载到 GPU 来获得好处,而 CPU 处理诸如过程控制之类的任务,这些任务本质上是串行的。

不同类别的 AI 处理器之间的一个共同点是,它们针对高性能和低延迟进行了优化,通常提供每秒 tera 操作 (TOPS) 性能的乘数。为了在这个竞争激烈的市场中获得优势,电源效率(以每瓦性能衡量)已变得与原始吞吐量一样重要。电源效率通常通过使用一种或多种设计技术的组合来实现,例如电源和时钟门控、动态电压和频率缩放、多 Vt 设计等。

确保这些复杂 IC 的可靠设计和验证至关重要,因为这些芯片中的电路故障会对它们提供的技术的有效性和结果的合法性产生重大影响。

AI/ML IC 可靠性验证

由于这些设计的尺寸和复杂性,可靠性验证是 AI/ML 芯片的一个巨大挑战,晶体管数量达到数百万甚至数十亿。例如,英伟达的 TESLA P100 GPU 拥有惊人的 153 亿晶体管数量,而英特尔的 Loihi IC 包含 128 个神经形态内核和 3 个 X-86 内核,拥有 20.7 亿个晶体管。而且,由于每个使用环境的可靠性要求不同,设计人员必须了解适用的一组要求,并通过根据明确定义的可靠性要求规范测试他们的设计来确保满足这些要求。

设计可靠性验证方法

传统上,设计师使用多种方法来确保设计可靠性,包括手动检查和模拟技术,主要依靠其设计团队的专业知识和经验。然而,对于这些大型复杂的 AI/ML 芯片来说,人工检查并不是一种可行的方法,因为它既耗时又容易出现人为错误,而且几乎不可能提供足够的覆盖范围。传统的类似 SPICE 的仿真方法对这些 IC 也不实用,因为它们缺乏大型设计的可扩展性。

为了克服容量和运行时间问题,许多设计团队通过仿真或传统工具手动划分设计并独立验证不同的知识产权 (IP) 块。然而,设计中不同 IP 模块之间存在许多交互(例如,不同计算内核与总线或链路或高带宽内存之间),并且在手动分区过程中,接口之间的交互往往容易被忽视。传统的 IC 验证工具难以验证这些复杂设计的运行时间过长,验证大型设计通常需要数天时间,并且可能会延迟上市时间。

这些流程中的每一个的缺陷都突出了对能够同时利用多个 CPU 和设备的计算能力的综合自动化电子设计自动化 (EDA) 解决方案的需求。通过自动化、合格的可靠性验证,产品设计和验证团队可以更快地集中在可靠性验证和修复上,从而将他们的总体周转时间 (TAT) 从几天缩短到几小时。

Calibre PERC 可靠性平台

在过去几年中,出现了一类可以解决这些工艺问题的新型 IC 可靠性验证工具。 Calibre™ PERC™ 可靠性平台等工具利用一组丰富的特性和功能来提供快速、符合代工厂要求的可靠性验证。例如,Calibre PERC 可靠性平台利用 Calibre 平台的多线程 (MT) 和多线程灵活 (MTflex) 扩展,将任务分配到多个 CPU 和/或远程机器,以提供快速、高效的验证过程执行在 AI/ML IC 等大型复杂芯片上(图 2)。

图 2. 多线程、灵活的扩展将任务分配到多个远程,以加快整体执行速度。

除了这些基本但必不可少的机制之外,Calibre PERC 可靠性平台还提供创新处理,将设计中的网表和布局信息结合起来,以快速准确地评估各种潜在的可靠性问题。这种高级可靠性验证方法使设计人员能够高效、自信地降低设计对性能和操作故障的敏感性,有助于支持可信赖的 AI/ML 技术的持续增长和采用。

晶体管级可靠性

大多数 ML/AI 设计出于各种目的使用多个电源域,例如为模拟 IP 提供干净、无噪声的电源,能够门控或关闭芯片特定区域的电源,缩放为选定的 IP 独立升高或降低电压,或使用多个电压调节器满足高电流需求。例如,英特尔的 Skylake 处理器包含九个主要电源域。

实现多电源域设计需要使用特殊的电路元件,例如稳压器、页眉和页脚开关、电平转换器、隔离单元和状态保持单元。这些元素对可靠性验证提出了一系列独特的挑战。例如,设计人员必须验证在每个域接口处是否使用了适当的电平转换器或隔离单元,以及它们是否正确连接(图 3)。

图 3。 在低功耗设计中使用特殊元件(例如电平转换器、隔离单元和电源门控开关)需要专门的验证技术。

他们还必须确保在不同的电源域上使用适当类型的器件,例如用于高压电源的厚氧化层器件。验证这些条件需要非常具体的知识和流程。

统一功率格式技术

统一电源格式 (UPF) 是一种广泛使用的技术,它使设计人员能够在整个设计流程中采用一致的电源意图描述。然而,传统的基于 UPF 的验证流程用于在逻辑或门级验证 IP,但它们缺乏验证最终晶体管级实现的能力,尤其是阱和体连接。

Calibre PERC 可靠性平台可以读取设计的 UPF 文件并利用 UPF 信息在晶体管级别执行各种分析,例如识别缺失或错误连接的电平转换器、电过载 (EOS) 条件、浮井等等.通过将 Calibre PERC 可靠性平台与 UPF 数据结合使用,设计人员可以以编程方式评估设备交互,以提供可重复和确定性的可靠性验证。

AI/ML 芯片的终身可靠性

操作安全是大多数 AI/ML 芯片的一个关键方面,预计它们将在其设计的整个生命周期内运行而不会出现任何故障或故障。一些电气可靠性问题,例如偏置温度不稳定性 (BTI) 和 EOS,可能不会立即出现故障,但如果在制造前不加以纠正,则可能会导致随着时间的推移迅速退化和老化。可靠性验证可以通过检查点对点电阻、正负 BTI、电流密度和电迁移 (EM) 等各种问题来帮助确保长时间的稳健运行,所有这些问题都会导致性能下降或灾难性故障。

考虑一个高压域器件正在驱动一个不能承受高压的薄氧化物器件的情况。在设计过程中,设计者没有插入高低电平转换器。尽管这种情况一开始不一定会影响功能,但随着时间的推移,它会给薄氧化物器件带来压力,最终导致故障。实际故障时间取决于电压值、电源开启与关闭的时间以及工艺参数。

EM(由电流引起的导体中原子的迁移)是影响 AI/ML IC 中使用的互连的长期稳健性的另一个主要问题。这种迁移会导致在电线上形成空隙和小丘。空隙会导致电阻显着增加,而小丘会造成短路,这两者都会导致电路故障。 EM 效应取决于许多因素,例如金属线的长度和宽度、互连材料、工作温度、单向与双向电流等。

代工厂根据产品的预期使用条件为设计公司提供电线可以处理的最大电流的 EM 限制。例如,移动电话内使用的 IC 的 EM 限制将远低于工业环境中使用的 IC。一些公司拥有专门的团队,他们积极与代工厂合作来定义适当的规格、创建测试结构并执行产品的 EM 容限认证。显然,为可在多种环境中使用的产品定义这些限制比较困难,因此设计人员通常为最坏的工作条件设计这些芯片。在所有情况下,根据代工厂定义的 EM 限制测试设计并验证设计能够承受 EM 效应至关重要。

在硅前验证阶段未能发现和纠正不同的可靠性问题可能会导致广泛的影响,包括多次流片、延迟将产品推向市场、失去客户信任、严重的负面市场反应、产品召回,甚至灾难性后果,例如人身伤害或生命损失。在流片前识别并修复可靠性违规问题,最大限度地减少电路故障或故障的可能性,而这些故障或故障可能会导致代价高昂。

人工智能/机器学习可靠性的分析和管理至关重要

最近人工智能/机器学习功能的成功和扩展很大程度上基于半导体技术的进步。随着这些新设计的开发,硬件设计社区必须意识到需要分析和管理设计的可靠性方面,例如目标环境、操作条件、可靠性标准等。强大的 EDA 可靠性验证工具旨在解决这些大型复杂芯片的特定可靠性问题和要求可以帮助设计公司确保其产品在其设计生命周期内按预期运行。反过来,这转化为对通过在更广泛的市场中使用 AI/ML 应用程序所取得的结果的信心,支持它们的持续使用和扩展。

行业文章是一种内容形式,允许行业合作伙伴以编辑内容不太适合的方式与 All About Circuits 读者分享有用的新闻、消息和技术。所有行业文章都遵循严格的编辑指南,旨在为读者提供有用的新闻、技术专长或故事。行业文章中表达的观点和意见是合作伙伴的观点和意见,不一定是All About Circuits或其作者的观点和意见。


物联网技术

  1. 电气安全的重要性
  2. 设施管理的重要性
  3. 可靠性工程师的职责是什么?
  4. 可靠性成功的第一关键
  5. 核心能力的重要性
  6. 可靠性的非技术方面
  7. 电动机可靠性趋势的重要性
  8. 设备日常维护的重要性
  9. 快速加工在制造业中的重要性
  10. 根本原因分析的重要性
  11. 应急计划的重要性
  12. 水的重要性