AI 芯片架构以图处理为目标
东京——前身为 ThinCI(发音为“Think-Eye”)的 AI 处理器设计师 Blaize 透露,其完全可编程的图形流处理器 (GSP) 将于 2020 年第二季度量产。
虽然这家成立 6 年的初创公司对其产品规格(例如功率水平和基准测试结果)保持沉默,但其测试芯片于 2018 年年中流片并安装在基于 Linux 的盒子中,已在全球参与了 16 个试点项目一年,Blaize 联合创始人兼首席执行官 Dinakar Munagala 声称。
Blaize 将其 GSP 描述为能够执行“直接图处理、片上任务图管理和执行以及任务并行性”。简而言之,Blaize 设计 GSP 是为了满足之前 GPU、CPU 或 DSP 无法满足的 AI 处理需求。
对于许多涵盖 AI 处理器的行业分析师来说,这是他们以前听说过的宣传。
Tirias Research 的首席分析师 Kevin Krewell 说:“我对 ThinCI 有所了解,但从未了解架构方面的知识。不过我很高兴他们改了名字。”
其幻灯片演示中 GSP 架构技术细节的缺乏让技术分析师社区感到沮丧和怀疑。然而,穆纳加拉承诺在 2020 年第一季度发布信息。
GSP 架构的高级框图
GSP 架构由一系列图形流处理器、专用数学处理器、硬件控制和各种类型的数据缓存组成。该公司声称 GSP 可以提供:“真正的任务级并行性、最少使用片外内存、深度优先的硬件图调度、完全可编程的架构。” 点击此处查看大图(来源:Blaize)
图>进入合格供应商名单
在穆纳加拉看来,对于 Blaize 来说,好消息是一群已经在使用其 GSP 的早期客户。一年来,Blaize 一直在运送带有 GSP 的台式机。它可以简单地插入电源插座并连接到以太网。 Munagala 说,数据科学家、软件和硬件开发人员已经在评估 GSP 支持的系统级功能。
Blaize 获得了 8700 万美元的资金,得到了早期投资者和合作伙伴的支持,包括日本第一梯队电装、戴姆勒和麦格纳。 “自几年前以来,我们也一直从汽车领域获得收入,”穆纳加拉说。
手里拿着流片芯片,许多初创公司面临着“我们现在该怎么办?”困境。 Blaize 副总裁兼战略业务发展副总裁 Richard Terrill 告诉 EE Times,“我们在一年前就已经过了那个阶段。”
Blaize 已通过加强工程团队(现在多达 325 人)将其重点转移到构建其基础设施,该团队一直延伸到加利福尼亚、印度和英国。它正在迁移到新的设施,并开始在日本和欧洲、中东和非洲地区招聘现场应用工程师. “我们正在保持我们的势头,”穆纳加拉说。
对于 Blaize 来说,它的 GSP 业务不再是与竞争对手的初创公司在幻灯片演示的规格上竞争。这是关于弄清楚客户将如何将其 GSP 用于哪些应用程序——以及它在特定用途中“在系统级别”消耗了多少电量。
Blaize 一直忙于确定其物流,使其产品获得汽车认证,并确保内部流程和文件得到认证。 Munagala 说:“我们已经完成了一个审计过程,我们在一个汽车客户的批准和合格供应商名单上”。这是汽车制造商和一级制造商急需的流程,他们更愿意避开可能持续时间不够长而无法交付产品的初创公司。
Blaize 在英国(在 Kings Langley 和 Leeds)雇佣了大约 30 名工程师,负责汽车产品开发。当 Imagination 剥离 MIPS 时,他们是一个紧密结合的工程师团队。 “他们是一群高素质的人,他们在 MIPS 共同努力,使基于 MIPS 的 ASIC 符合 Mobileye 的汽车标准,”Munagala 解释说。
图计算
尽管人工智能有许多不同类型的神经网络,“所有神经网络都是基于图的,”穆纳加拉解释说。理论上,这允许开发人员利用图原生结构在单个架构上构建多个神经网络和整个工作流程。因此,该公司对其 GSP 的新营销宣传是“100% 图形原生”。
然而,Blaize 并不是图计算领域的独角兽。 Graphcore、Mythic 和现在失败的 Wave Computing 都谈到了 AI 处理中的“数据流图的优化和编译”。
Terrill 说:“当然,图计算有 60 多年的历史。”
穆纳加拉说,Blaize GSP 声称在三个方面与其他基于图形的数据流处理器不同。首先,“我们的 GSP 是完全可编程的”,能够执行“范围广泛的任务”,他说。
其次,它是“动态可重新编程的……在单个时钟周期内。”
第三,“我们提供流媒体集成”,这可以最大限度地减少延迟。他解释说,巨大的效率乘数是通过“数据流机制”实现的,在这种机制中,非计算数据移动被最小化或消除。
顺序执行处理
单击此处查看大图(来源:Blaize)
GSP 架构的图形原生特性可以最大限度地减少与外部 DRAM 之间的数据移动。外部只需要第一个输入和最后一个输出,而中间的其他一切都只是临时的中间数据。这导致显着降低内存带宽和功耗。
图流执行处理
点击此处查看大图(来源:Blaize)
Blaize 系统的既定目标是“尽可能降低延迟,减少芯片、电路板和系统级别的内存需求和能源需求。”
当被问及 Blaize 的图形计算设计是否可以申请专利时,Mungala 说:“我们对我们的专利组合充满信心。我们拥有多项专利——有些已经获得授权,有些已经申请,但我们多年来一直在这样做。”
嵌入式