机器学习基准测试扩展了对边缘、数据中心工作负载的支持
基准测试组织 ML Commons 发布了新一轮的 MLPerf 推理分数。最新一轮被分成几类设备,以便于比较。结果还包含一系列新的 AI 模型,旨在代表一系列不同的工作负载,这些工作负载已商业部署但仍被认为是最先进的。
Nvidia 加速系统约占总提交量的 85%,赢得了他们进入的所有类别。但是,在移动或笔记本类中没有 Nvidia 提交(Nvidia 在这些市场中不存在 AI 加速产品)。还有一些来自初创公司的有趣提交,总体而言更倾向于在多列中包含数字,以便于比较。
上一轮的变化
本轮结果的第一个重大变化是系统已分为几类:数据中心、边缘、移动和笔记本。手机和笔记本电脑具有非常特殊的外形和性能配置文件,这使得它们很容易从更广泛的边缘列表中分离出来。
ML Commons 的执行董事大卫·坎特 (David Kanter) 对 EE Times . “将这些结果从更大的推理分数池中分离出来,非常有助于让事情变得更清晰。”
第二轮推理分数的基准也进行了修改,以包括代表现代用例的 AI 模型。上一轮侧重于视觉和图像处理模型,这次数据中心和边缘类包括推荐模型 DLRM、用于在 MRI 扫描中寻找肿瘤的医学成像模型 3D-UNet、语音到文本模型 RNN- T和自然语言处理(NLP)模型BERT。
“[模型选择] 由客户输入驱动,但我们不想陷入让学生自行设置测试的陷阱,”坎特说,并解释说目的是确定生产中的尖端模型,不仅仅是在研究阶段。 “DLRM 和 3D-UNet,这些都是由我们的顾问委员会、医学界人士、进行大规模推荐的人士推动的非常明智的 [选择]……这种知情的工作负载构建非常有价值。”
移动和笔记本类使用 MobileNetEdge 进行图像分类,使用 SSD-MobileNetv2 进行对象检测,使用 Deeplabv3 进行图像分割,使用 Mobile BERT 进行 NLP。
全面提高了准确性目标,以反映实际部署情况。
以下分析仅针对“封闭式”划分进行公平比较。
数据中心结果
正如预期的那样,数据中心类中的大多数提交都使用了 Nvidia GPU 加速器。其余的使用 Intel CPU 进行 AI 处理,但有几个例外(见下文)。这次谷歌没有提交其 TPU 的提交,也没有任何在这个领域建立自己的初创公司(Graphcore、Cerebras、Groq 等)的声音社区中的任何人提交。
“在称为 ResNet 的基本计算机视觉模型和高级推荐系统模型上,[Nvidia 的] CPU 的性能领先从大约 6 倍增加到 30 倍……Nvidia A100 比 [英特尔的] Cooper Lake CPU 快 237 倍,”Paresh Kharya 说,英伟达产品管理和营销高级总监。 “单个 DGX-A100 在推荐系统上提供与 1000 个 CPU 服务器相同的性能,并为客户提供惊人的价值。”
Mipsology 是该部门唯一的商用非 CPU 非 GPU 进入者。该公司拥有一种名为 Zebra 的加速器技术,该技术在 Xilinx FPGA(在本例中为 Xilinx Alveo U250)上运行。他们的技术可以在服务器模式下每秒处理 4096 个 ResNet 查询(相比之下,Nvidia T4 大约为 5563)或在离线模式下每秒处理 5011 个样本(相比之下,Nvidia T4 大约为 6112)。
台湾公司 Neuchips 提交了研究、开发或内部类别的分数,这意味着它使用的设备尚未上市,很可能至少还要再过 6 个月才会上市。 RecAccel 专为加速 DLRM(此基准测试中使用的推荐模型)而设计。它使用在 Intel Stratix FPGA 上运行的大规模并行设计进行 AI 推理。它在 DRLM 类别中的结果与 Intel Cooper Lake CPU 相当或更差,无法与 Nvidia 匹敌。
边缘结果
边缘类别以 Nvidia 的 A100、T4、AGX Xavier 和 Xavier NX 加速的分数为主。
Centaur Technology 输入了其商用参考设计系统的结果,该系统使用 Centaur 基于其内部 x86 微架构的服务器处理器,以及一个单独的内部 AI 加速器作为协处理器。据 Centaur 称,该参考设计是用于本地或私有数据中心应用的服务器级系统,并针对成本和外形因素(而不是功耗或峰值性能)进行了优化。
在 ResNet 图像分类(单流延迟)上,Centaur 的系统比 Nvidia 自己提交的配备 Tesla T4 的服务器系统要快。然而,T4 在每秒处理的 ResNet 离线样本上击败了 Centaur 的设计。然而,Centaur 在物体检测方面表现不佳,介于 Nvidia 的两个嵌入式边缘模块 Xavier NX 和 AGX Xavier 之间。
英国工程咨询公司 dividiti 专门客观评估 ML 硬件和软件系统,提交了大量关于系统的分数,从 Fireflys 和 Raspberry Pis 到 Nvidia AGX Xavier。 Raspberry Pi 条目看似相同的分数实际上使用不同的操作系统(32 位 Debian 与 64 位 Ubuntu – Ubuntu 大约快 20%)。该公司的结果与 Nvidia 自己对 AGX Xavier 的结果不同,因为 Nvidia 在其 ResNet Offline 和 Multistream 得分中同时使用了 AGX Xavier 的 GPU 和两个片上深度学习加速器,而 dividiti 仅使用了 GPU。
Dividiti 的一位发言人还告诉 EE Times 虽然该公司已经设法“或多或少”地重现了 Nvidia 在上一轮推理中的分数,但最新的结果将性能回归引入了测试工具中,这只是在提交截止日期前几分钟才被注意到(后来修复这个错误改善了一些延迟10-20%)。这说明了硬件/软件组合对结果的重要性。
边缘类别主要由 Nvidia GPU 加速的结果主导,包括 Jetson Xavier NX(图片:Nvidia)
此类别中的新条目包括研究、开发或内部类别中的 IVA Technologies 和 Mobilint。
俄罗斯 IT 设备设计商和制造商 IVA Technologies 一直致力于开发支持卷积、3D 卷积和 LSTM 模型的 AI 加速器芯片。该公司提交了一个标记为“FPGA”的分数,它可能是在 FPGA 上实现的加速器 ASIC 的原型。 ResNet 单流延迟为 12.23 毫秒,大约比 Xavier NX 慢 4 倍,并且每秒处理 89 个离线样本,不到 Xavier NX 的十分之一。然而,Edge 类别很广泛,而且对其设计知之甚少——它可能适用于比 Xavier NX 更小的设备。
韩国 AI 加速器 ASIC 初创公司 Mobilint 为其 Mobilint Edge 设计提交了分数,EE Times 嫌疑人是在 Xilinx Alveo U250 FPGA 卡上作为原型实现的。在 ResNet 上,它的延迟比 IVA Technologies 的设计长得多,为 37.46 毫秒,但每秒处理的离线样本更多(107)。该公司还提交了对象检测分数。
尽管 IVA Technologies 或 Mobilint 都没有取得突破性的成绩,但基准测试原型肯定是有价值的,因为它证明其随附的软件堆栈已准备就绪。
移动搜索结果
在新的移动 SoC 类别中,有三份提交的作品相当匹配,但没有明显的获胜者。
联发科为其天玑 820(在小米红米 10X 5G 智能手机中)提交了分数。该设备使用联发科自己的 AI 处理单元 (APU) 3.0,这是一个支持 FP16 和 INT16 的加速器,针对相机/成像功能进行了优化。 SoC还有一个5核GPU。
Qualcomm Snapdragon 865+ 使用该公司专为 AI 加速设计的 Hexagon 698 处理器,时钟频率为 15 TOPS,以及 Adreno 650 GPU。基准测试在华硕 ROG Phone 3 上运行。
三星的 Exynos 990 作为 Galaxy Note 20 Ultra 的一部分进行了基准测试。该设备包含一个双核 NPU(神经处理单元)和一个 Arm Mali-G77 GPU,以及各种 Arm CPU 内核。
三星的 Exynos 990 在图像分类和 NLP 方面做得最好;联发科天玑 820 在图像分类上非常接近,但三星在 NLP 上的领先优势更为明显。联发科在物体检测方面明显领先,高通骁龙865+位居第二。联发科还获得了图像分割基准,以微弱优势领先高通。
笔记本结果
Notebook 类别中只有一个条目 - 使用即将推出的 Intel Xe-LP GPU 作为加速器的 Intel 参考设计。 Xe-LP是Xe-HP和Xe-HPC的低功耗版本,用于数据中心AI加速和HPC;两个较大的设备都没有进行基准测试。
由于此类中只有一个条目,因此很难解释 Xe-LP 的结果。不过,笔记本品类使用的AI模型与移动品类相同,因此有些比较是在所难免的。 Xe-LP 相对于移动 SoC 的最大优势在于图像分割 (DeeplabV3),在吞吐量(每秒帧数)方面,它的性能比移动获胜者高 2.5 倍。其最弱的性能是在对象检测 (SSD – MobileNetv2) 上,其在吞吐量(每秒帧数)方面的优势是移动获胜者的 1.15 倍。
未来的基准
展望未来,坎特希望未来几轮基准测试将包括更多非 Nvidia 和非英特尔 CPU 条目,并表示该组织已竭尽全力鼓励初创公司和小公司提交结果。
“我们有一个开放的部门,你可以在那里提交你想要的任何网络,”他说。 “这样做的好处之一是,如果客户说我想要 X,而您为此做了所有启用,您就可以使用 X,只要您可以输入代码,这样我们就可以看到您正在运行的内容。 ”
公司可以只提交一个 AI 模型的结果以减少工程工作量,甚至可以将自己的模型提交到开放类别中。
坎特还提到,该组织打算在下一轮评分中引入功率测量维度。工作已经在进行中。
“我们希望让人们参与其中的一件事是帮助构建功率测量基础设施——帮助我们构建进行这些测量的工具,”坎特说。
可在此处获得 MLPerf 推理结果的完整列表。
>> 本文最初发表于我们的姊妹网站 EE Times。
嵌入式