亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 嵌入式

Xilinx 将 Alveo HBM 翻倍,为 HPC 和大数据工作负载添加集群

在本周的 SC21 超级计算大会上,赛灵思推出了其 Alveo U55C 数据中心加速卡和一种新的基于标准、API 驱动的集群解决方案,用于大规模部署 FPGA。该公司表示,通过启用数百张 Alveo 卡的集群并启用应用程序和集群的高级可编程性,这款新卡使扩展 Alveo 计算能力以比以前更容易、更高效地针对高性能计算 (HPC) 工作负载。

赛灵思表示,Alveo U55C 卡专为 HPC 和大数据工作负载打造,可提供 Alveo 加速器产品组合中最高的计算密度和 HBM(高带宽内存)容量。与新的基于 Xilinx RoCE v2 的集群解决方案一起,拥有大规模计算工作负载的广泛客户现在可以使用他们现有的数据中心基础设施和网络实施强大的基于 FPGA 的 HPC 集群。在架构上,基于 FPGA 的加速器声称可以以最低的成本为许多计算密集型工作负载提供最高的性能。它引入了一种基于标准的方法,可以使用客户现有的基础设施和网络创建 Alveo HPC 集群。

该公司表示,这是在整个数据中心更广泛地采用 Alveo 和自适应计算的重大飞跃。

Xilinx 数据中心 HPC 产品经理 Nathan Chang 在接受 Embedded.com 采访时说:“我们开始看到计算并不总是瓶颈。实际上,通常是内存带宽。越来越多的计算问题正受到内存带宽的限制。因此,我们将卡缩小到一个插槽,并将该卡上的 HBM 增加了一倍。但更重要的是,我们提供了跨这些卡横向扩展的能力,能够创建包含数百张卡的大型集群,并针对这些卡上的所有 HBM。”

他继续说道,“解锁 Alveo 卡集群之间的带宽一直是我们社区的一项重大努力。开发人员必须创建团队,然后创建自己的集群设计来满足他们的需求。现在我们推出了一个基于开放标准的集群包——这意味着我们将利用 RoCE v2 和数据中心桥接,在每张卡上具有 200 Gbps 带宽的以太网上。”

“这意味着在数据中心的现有基础设施中,您将能够将这些卡放在现有服务器中,能够在现有以太网网络上利用它们,并在性能和延迟方面与 InfiniBand 竞争。”

“另一个关键点是,我们不仅为更大的工作负载创造了空间,而且还确保开发社区更容易访问 Vitis。您不再需要了解 RTL 或 Verilog。您可以使用现有的高级语言(如 C、C++ 和 Python)对 Alveo 卡进行编程并定位 Alveo 板。”

用于 HPC 和大数据的 Alveo U55C 功能

Alveo U55C 卡结合了当今 HPC 工作负载所需的许多关键功能。据赛灵思称,它提供了更多的数据管道并行性、卓越的内存管理、优化的整个管道数据移动以及 Alveo 产品组合中最高的每瓦性能。该卡是单槽全高半长 (FHHL) 外形,最大功率低至 150W。与其前身双插槽 Alveo U280 卡相比,它提供了卓越的计算密度,并将 HBM​​2 增加了一倍至 16GB。因此,新的 U55C 以更小的外形提供更多的计算能力,用于创建基于 Alveo 加速器的密集集群。这是针对需要横向扩展的高密度流数据、高 IO 数学和大型计算问题,如大数据分析和人工智能应用。

利用 RoCE v2 和数据中心桥接,再加上 200 Gbps 带宽,API 驱动的集群解决方案使 Alveo 网络能够在性能和延迟方面与 InfiniBand 网络竞争,而不会被供应商锁定。 MPI 集成允许 HPC 开发人员从 Xilinx Vitis 统一软件平台扩展 Alveo 数据流水线。该公司表示,利用现有的开放标准和框架,现在可以跨数百张 Alveo 卡进行横向扩展,而无需考虑服务器平台和网络基础设施以及共享工作负载和内存。

软件开发人员和数据科学家可以利用 Vitis 平台通过应用程序和集群的高级可编程性获得 Alveo 和自适应计算的优势。赛灵思表示,它在 Vitis 开发平台和工具流程上投入了大量资金,以使没有硬件专业知识的软件开发人员和数据科学家更容易使用自适应计算。支持 Pytorch 和 Tensorflow 等主要 AI 框架,以及 C、C++ 和 Python 等高级编程语言,允许开发人员使用特定 API 和库构建领域解决方案,或利用 Xilinx 软件开发套件,轻松加速关键 HPC现有数据中心内的工作负载。

谁在使用卡片?

Chang 表示,该公司一直在与多个组织合作使用 U55C 卡进行概念验证设计。

其中之一是澳大利亚国家研究机构 CSIRO 以及世界上最大的射电天文天线阵列,他们使用 U55C 而不是 GPU,因为 Alveo 卡支持单槽卡,不需要 NIC(网络接口卡)。 CSIRO 正在利用 Alveo U55C 卡在平方公里阵列射电望远镜中进行信号处理。将 Alveo 卡部署为带有 HBM 的网络附加加速器,可以在整个 HPC 信号处理集群中实现大规模的大规模吞吐量。基于 Alveo 加速器的集群使 CSIRO 能够处理来自 131,000 根天线的实时聚合、过滤、准备和处理数据的大规模计算任务。信号处理集群中 460Gbps 的 HBM2 带宽由 420 个 Alveo U55C 卡提供,这些卡通过支持 P4 的 100Gbps 交换机完全联网在一起。 Alveo U55C 集群提供处理性能,总吞吐量为 15Tb/s,占用空间紧凑且具有成本效益。 CSIRO 目前正在完成一个 Alveo 参考设计示例,以帮助其他射电天文学或邻近行业取得同样的成功。

另一个用例示例是 Ansys LS-DYNA 碰撞仿真软件,世界上几乎所有汽车公司都在使用该软件。安全和结构系统的设计取决于模型的性能,因为它们通过计算机辅助设计有限元方法 (FEM) 模拟降低了物理碰撞测试的成本。 FEM 求解器是驱动具有数亿个自由度的模拟的主要算法,这些庞大的算法可以分解为更基本的求解器,如 PCG、稀疏矩阵、ICCG。通过在具有超并行数据流水线的许多 Alveo 卡上进行横向扩展,与 x86 CPU 相比,LS-DYNA 可以将性能提高 5 倍以上。这导致 Alveo 管道中每个时钟周期的工作更多,LS-DYNA 客户从改变游戏规则的模拟时间中受益。 “本着不懈创新的精神,我们很高兴与 Xilinx 合作以显着加速有限元求解器,在我们的 LS-DYNA 仿真应用程序中,有限元求解器可以代表 90% 的隐式力学计算工作负载,”Wim Slagter 说,Ansys 战略合作伙伴总监。 “我们期待 Xilinx 加速帮助我们完成支持创新者设计未来的使命。”

Xilinx 引用了第三个例子,TigerGraph,领先的图形分析平台提供商。该公司正在使用多个 Alveo U55C 卡来集群和加速驱动基于图的推荐和集群引擎的两种最多产的算法。图数据库是数据科学家的颠覆性平台。图表从孤岛中获取数据,并将重点放在数据之间的关系上。图的下一个前沿是实时找到这些答案。 Alveo U55C 将推荐引擎的查询时间和预测从几分钟缩短到几毫秒。通过利用多个 U55C 卡来扩展分析,与基于 CPU 的集群相比,卓越的计算能力和内存带宽将图形查询速度提高了 45 倍。分数的质量也提高了 35%,从而提高了置信度,将误报率显着降低到低个位数。

Alveo U55C 卡目前可在 Xilinx 网站和 Xilinx 授权经销商处购买。它还可以通过基于公共云的 FPGA 即服务提供商进行评估,以及用于私有预览的精选托管数据中心。集群现在可用于私人预览,预计将于明年第二季度全面上市。


嵌入式

  1. Siemens 添加到 Veloce 以实现无缝硬件辅助验证
  2. 通过嵌入式人工智能将大数据转化为智能数据
  3. Xilinx 通过用于 5G 无线电的数字前端硬核 IP 提升 RFSoC 性能
  4. TI:体声波谐振器技术为下一代通信铺平道路
  5. DATA MODUL:用于大批量项目的新键合技术
  6. Cervoz:适用于关键任务应用的坚固型军用级固态硬盘
  7. CEVA:用于深度神经网络工作负载的第二代 AI 处理器
  8. 控创:新的嵌入式计算标准 COM HPC
  9. 加入:用于可扩展数据通信的 I/O 模块
  10. 工业物联网的四大挑战
  11. 大数据是否可以解决健康预算不佳的问题?
  12. 大数据与人工智能