AI 推理竞赛白热化
虽然 Nvidia GPU 在 AI 训练中的主导地位仍然是无可争议的,但我们可能会看到早期迹象,表明在 AI 推理方面,这家科技巨头的竞争正在加剧,尤其是在能效方面。然而,Nvidia 新 Blackwell 芯片的纯粹性能可能很难被击败。
今天早上,ML Commons 发布了其最新的 AI 推理竞赛 ML Perf Inference v4.1 的结果。本轮融资包括使用 AMD Instinct 加速器、最新 Google Trillium 加速器、多伦多初创公司 UntetherAI 的芯片以及 Nvidia 新 Blackwell 芯片的首次试用团队的首次提交。另外两家公司 Cerebras 和 FuriosaAI 宣布推出新的推理芯片,但没有提交给 MLPerf。
就像奥林匹克运动一样,MLPerf 有许多类别和子类别。提交数量最多的是 “datacenter-closed” 类别。封闭类别(而不是开放类别)要求提交者按原样对给定模型运行推理,而无需对软件进行重大修改。数据中心类别测试提交者对查询的批量处理,而边缘类别则侧重于最大限度地减少延迟。
在每个类别中,有 9 个不同的基准测试,适用于不同类型的 AI 任务。其中包括图像生成(想想 Midjourney)和 LLM 问答(想想 ChatGPT)等流行的用例,以及同样重要但不太引人注目的任务,例如图像分类、对象检测和推荐引擎。
本轮比赛包括一个名为 Mix of Expert 的新基准。这是 LLM 部署的一个增长趋势,其中语言模型被分解为几个较小的独立语言模型,每个模型都针对特定任务进行了微调,例如定期对话、解决数学问题和协助编码。该模型可以将每个查询定向到较小模型的适当子集,即“专家”。MLPerf 推理工作组主席兼 AMD 高级技术人员 Miroslav Hodak 说,这种方法可以减少每个查询的资源使用,从而降低成本并提高吞吐量。
在流行的数据中心封闭基准测试中,每个基准测试的获胜者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超级芯片的提交,它们将 GPU 和 CPU 组合在同一个封装中。然而,仔细观察性能结果会描绘出更复杂的画面。一些提交者使用了许多加速器芯片,而另一些则只使用了一种。如果我们根据使用的加速器数量对每个提交者每秒能够处理的查询数量进行标准化,并仅保留每种加速器类型的性能最佳的提交,就会出现一些有趣的细节。(请务必注意,此方法忽略了 CPU 和互连的作用。
在每个加速器的基础上,Nvidia 的 Blackwell 在 LLM Q&A 任务上的表现比之前的所有芯片迭代高出 2.5 倍,这是它提交的唯一基准测试。Untether AI 的 speedAI240 Preview 芯片在其唯一的提交任务(图像识别)中的性能几乎与 H200 相当。Google 的 Trillium 在图像生成方面的表现略高于 H100 和 H200 的一半,AMD 的 Instinct 在 LLM 问答任务中的表现与 H100 差不多。
Blackwell 的力量
Nvidia Blackwell 成功的原因之一是它能够使用 4 位浮点精度运行 LLM。Nvidia 及其竞争对手一直在降低 ChatGPT 等 transformer 模型部分用于表示数据的位数,以加快计算速度。Nvidia 在 H100 中引入了 8 位数学,此次提交标志着 MLPerf 基准测试中首次演示 4 位数学。
使用这种低精度数字的最大挑战是保持准确性,Nvidia 的产品营销总监 Dave Salvator 说。他说,为了保持 MLPerf 提交所需的高精度,Nvidia 团队必须在软件方面进行重大创新。
Blackwell 成功的另一个重要贡献是它的内存带宽几乎翻了一番,为 8 TB/秒,而 H200 的内存带宽为 4.8 TB/秒。
英伟达 GB2800 格蕾丝布莱克威尔超级芯片英伟达
Nvidia 提交的 Blackwell 使用了单个芯片,但 Salvator 表示,它是为网络和扩展而构建的,并且在与 Nvidia 的 NVLink 互连结合使用时性能最佳。Blackwell GPU 支持多达 18 个 NVLink 每秒 100 GB 连接,总带宽为每秒 1.8TB,大约是 H100 互连带宽的两倍。
Salvatore 认为,随着大型语言模型规模的增加,即使是推理也需要多 GPU 平台来满足需求,而 Blackwell 就是为这种可能性而构建的。“Blackwell 是一个平台,”Salvator 说。
Nvidia 在预览子类别中提交了他们基于 Blackwell 芯片的系统,这意味着它尚未出售,但预计将在六个月后的下一个 MLPerf 版本之前上市。
Untether AI 在功耗和边缘领域大放异彩
对于每个基准测试,MLPerf 还包括一个电能测量对应物,它系统地测试每个系统在执行任务时消耗的电能。主赛事(数据中心封闭能源类别)本轮只有两个提交者:Nvidia 和 Untether AI。虽然 Nvidia 参加了所有基准测试,但 Untether 只提交了图像识别。
提交者 | 加速器 | 加速器数量 | 每秒查询数 | 瓦 | 每秒每 Watt 的查询数 |
英伟达 | 英伟达 H200-SXM-141GB | 8 | 480,131.00 | 5,013.79 | 95.76 |
UntetherAI | UntetherAI 速度AI240 Slim | 6 | 309,752.00 | 985.52 | 314.30 |
这家初创公司通过使用一种称为内存计算的方法构建芯片,实现了这种令人印象深刻的效率。UntetherAI 的芯片构建为内存元件网格,小型处理器直接散布在它们旁边。处理器是并行化的,每个处理器都与附近内存单元中的数据同时工作,从而大大减少了在内存和计算内核之间来回切换模型数据所花费的时间和精力。
“我们看到的是,执行 AI 工作负载的 90% 的能源只是将数据从 DRAM 移动到缓存再到处理元件,”Untether AI 产品副总裁 Robert Beachler 说。“所以 Untether 所做的就是扭转这种情况......我不是将数据移动到计算中,而是将计算中移到数据中。
事实证明,这种方法在 MLPerf 的另一个子类别中特别成功:边缘闭合。Beachler 说,此类别面向更多的实际用例,例如工厂车间的机器检查、导视机器人和自动驾驶汽车,这些应用对低能耗和快速处理至关重要。
提交者 | GPU 类型 | GPU 数量 | 单流延迟 (ms) | 多流延迟 (ms) | 采样/秒 |
联想 | NVIDIA L4 | 2 | 0.39 | 0.75 | 25,600.00 |
联想 | 英伟达 L40S | 2 | 0.33 | 0.53 | 86,304.60 |
UntetherAI | UntetherAI speedAI240 预览 | 2 | 0.12 | 0.21 | 140,625.00 |
在图像识别任务上,SpeedAI240 Preview 芯片再次是唯一报告结果的 UntetherAI 芯片,其延迟性能比 NVIDIA L40S 高出 2.8 倍,其吞吐量(每秒样本数)高出 1.6 倍。这家初创公司也提交了该类别的强大结果,但他们的 Nvidia 加速竞争对手没有,因此很难进行直接比较。然而,UntetherAI 的 speedAI240 Preview 芯片每个芯片的标称功耗为 150 瓦,而 Nvidia 的 L40s 为 350 瓦,导致标称功耗降低 2.3 倍,延迟得到改善。
Cerebras、Furiosa 跳过 MLPerf 但宣布推出新芯片
Furiosa 的新芯片以一种不同的、更高效的方式实现了 AI 推理的基本数学功能,即矩阵乘法。 FURIOSA (飞跃)
昨天在斯坦福大学举行的 IEEE Hot Chips 会议上,Cerebras 推出了自己的推理服务。这家位于加利福尼亚州桑尼维尔的公司生产硅晶片允许的巨型芯片,从而避免了芯片之间的互连,并大大增加了其设备的内存带宽,这些设备主要用于训练大规模神经网络。现在,它已经升级了其软件堆栈,以使用其最新的计算机 CS3 进行推理。
尽管 Cerebras 没有提交给 MLPerf,但该公司声称其平台在每秒生成的 LLM 代币方面比 H100 高 7 倍,比竞争对手的 AI 初创公司 Groq 的芯片高出 2 倍。“今天,我们正处于 Gen AI 的拨号时代,”Cerebras 首席执行官兼联合创始人 Andrew Feldman 说。“这是因为存在内存带宽障碍。无论是 Nvidia 的 H100 还是 MI 300 或 TPU,它们都使用相同的片外内存,并且会产生相同的限制。我们突破了这一点,我们之所以这样做,是因为我们是晶圆级的。
Hot Chips 还看到了首尔 Furiosa 的公告,展示了他们的第二代芯片 RNGD(发音为“renegade”)。Furiosa 芯片的不同之处在于其张量收缩处理器 (TCP) 架构。AI 工作负载中的基本操作是矩阵乘法,通常作为硬件中的基元实现。但是,矩阵的大小和形状(通常称为张量)可能会有很大差异。RNGD 将这个更广义的版本 Tensors 的乘法实现为基元。“在推理过程中,批量大小差异很大,因此利用给定张量形状的固有并行性和数据重用非常重要,”Furiosa 创始人兼首席执行官 June Paik 在 Hot Chips 上说。
虽然没有提交给 MLPerf,但 Furiosa 在内部将其 RNGD 芯片的性能与 MLPerf 的 LLM 摘要基准测试进行了比较。它的性能与 Nvidia 面向边缘的 L40S 芯片相当,而 L40S 的功率为 185 瓦,而 L40S 为 320 瓦。而且,Paik 说,随着软件的进一步优化,性能将得到提高。
IBM 还宣布了其专为企业生成式 AI 工作负载设计的新型 Spyre 芯片,将于 2025 年第一季度上市。
至少,在可预见的未来,AI 推理芯片市场上的购物者不会感到无聊。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码