AI芯片通过云服务上线
Groq 的张量流处理器 (TSP) 芯片现已可用于加速客户在云中的 AI 工作负载。云服务提供商 Nimbix 现在在 Groq 硬件上提供机器学习加速,作为仅面向“选定客户”的按需服务。
虽然有几家初创公司为数据中心构建 AI 芯片,但 Groq 现在加入 Graphcore,成为仅有的两家拥有商用加速器,供客户将其用作云服务的一部分。 Graphcore 此前宣布其加速器可作为 Microsoft Azure 的一部分使用。
Nimbix 首席执行官 Steve Hebert 表示:“Groq 的简化处理架构是独一无二的,可为计算密集型工作负载提供前所未有的确定性性能,并且是我们基于云的 AI 和深度学习平台的一个令人兴奋的补充。
Groq 是第二家在云端提供硬件的 AI 加速器初创公司(图片:Groq)
Groq 去年秋天推出的 TSP 芯片能够达到 1,000 TOPS(每秒 1 peta 操作)。该公司最近发布的结果表明,该芯片每秒可实现 21,700 次 ResNet-50 v2 推理,据 Groq 称,这使当今基于 GPU 的系统的性能提高了一倍以上。这些结果表明 Groq 的架构是最快(如果不是最快的)商用神经网络处理器之一。
“这些 ResNet-50 结果证明了 Groq 独特的机器学习加速架构和方法比我们的竞争对手提供了明显更快的推理性能,”Groq 的联合创始人兼首席执行官 Jonathan Ross 说。 “这些基于行业标准基准而非模拟或硬件仿真的真实世界证明点证实了 Groq 技术为机器学习和人工智能应用程序带来的可衡量的性能提升。”
Groq 表示,其架构可以实现深度学习加速所需的大规模并行性,而无需传统 CPU 和 GPU 架构的同步开销。作为 Groq 软件驱动方法的一部分,控制功能已从芯片中移除并提供给编译器。这导致由编译器编排的完全可预测的确定性操作,允许在编译时完全了解性能。
另一个需要注意的关键特性是 Groq 的性能优势不依赖于批处理——这是数据中心一次处理多个数据样本以提高吞吐量的常用技术。根据 Groq 的说法,它的架构即使在批处理 =1 时也能达到峰值性能,这是推理应用程序的常见要求,这些应用程序可能正在处理实时到达的数据流。该公司表示,虽然 Groq 的 TSP 芯片在大批量时提供比 GPU 2.5 倍的中等延迟优势,但在批量 =1 时,优势接近 17 倍。
嵌入式