破局GPU的AI霸权 Intel Gaudi3帮国内厂商探路
如果说人工智能是最近当红的技术话题一哥,那么这个应用背后的硬件则是中国半导体产业不可名状的悲伤。从2022年对高性能3nm GAA-FET的EDA应用审批开始,美国政府针对中国或全球半导体的各种禁令在公开层面的主要目标只有一个,就是中国AI硬件产业。
美国政府针对中国AI产业先是禁了高端AI芯片在中国市场的销售,随后叫停了美籍人员参与中国芯片设计的资格,第三步是直接要求先进代工厂拒绝为满足一定性能和工艺的中国AI芯片代工,最后干脆今年清明节开始对含有部分禁售性能边缘芯片的整机设备也一刀切禁掉。打蛇打七寸,没有了高性能AI处理器芯片,中国企业进行AI训练和部署的效率必然大打折扣,至少在高端AI应用上事倍功半。在目前新项目融资言必提及AI的美国华尔街,AI市场未来预期分析一致认为,中美两国的AI应用水平几乎领先全球其他地方至少3-5年,而两者之间的差距则微乎其微。如果把AI当作未来工业5.0时代的标准技术,要继续稳固美国的AI霸权,目前最直接和唯一有效的手段也只能是扼住AI芯片在中国应用的咽喉了。
在这一背景下,不管是英伟达最新划时代的B200还是英特尔随后推出的Gaudi 3,都在中文网络反响平平,毕竟当一众看客还在惊叹于两家公司新推出的AI处理器性能多么彪悍的背后,很多人似乎忘记了这两款产品从诞生之初就必然跟中国市场无缘,甚至为了围追堵截进入中国的通幽曲径,美国干脆连一些跟中国关系不错的市场也一并禁掉了。
当然,贵为如今半导体销售额第一第二的英特尔和英伟达也不想放弃中国市场,毕竟按照某美国不靠谱分析机构在被管制之前的调研,中国AI相关大算力硬件市场规模占了全球40%以上。只是不管是英特尔的Gaudi2特供版还是英伟达的4090特供版,似乎业界反响都很一般,毕竟阉割后的硬件比国内的AI芯片又能强得了多少?不过据说抢在禁令前的某批特供版似乎是满血规格,市场抢购速度堪比小米SU7(毕竟两者价格类似)。与之相对应的是,当年至少三家国内企业的GPU新品发布时直接对标性能不输A100,但是面对阉割版的4090时似乎都没有信心一战,禁令后国产GPU新品再无“碰瓷”A100的宣传口径也值得唏嘘。
但是,服务器加速和AI推理训练应用真的只能GPU一家独大么?GPU,FPGA和NPU,作为从服务器加速演进到AI算力池构建的三大计算加速利器,却因为英伟达在CUDA上的十年生态铺垫最后演变成GPU的一家独大。这也导致国内部署AI算力的初创公司纷纷以GPU为切入点,甚至跳过PC级GPU的研发直接冲刺服务器和AI训练用GPU。从单纯芯片设计角度,GPU的结构相对并不复杂,但GPU高性能的关键特性国内厂商一个都没有,没有EDA授权先进工艺就用不了这意味着密度上不去,高速传输美国不让用导致传输效率提不起来,现在英伟达干脆直接要在未来禁止第三方硬件直接套用CUDA,那么对国产GPU芯片设计公司来说,连GPU在AI算力构建中最核心的优势都不复存在,既然如此为何不考虑转型走差异化道路呢?
说到AI处理器的差异化竞争,无论是服务器加速,还是AI算力构建,从技术上并不是只有GPU一条路可以走。虽然GPU目前在密度和大规模简单计算方面存在明显的优势,但既然这条路受到各种各样的限制,为何不尝试其他几条路呢?这两天英特尔发布的Gaudi 3 就是国产AI芯片厂商值得学习的一个思路。作为同时拥有CPU、GPU、NPU和FPGA的处理器传统巨头,即使已经推出了用于服务器加速的GPU,并且在至强内核上增加了NPU单元,但英特尔真正看重的AI应用还是Gaudi 3。
我们先来看看Gaudi 3和Gaudi 2的区别,Gaudi 3将64个Tensor processor Core(TPCs)封装在两个计算Tile中,128GB HBM和共享96MB缓存池且拥有8个MME,24*200GbE和16个PCIe5 传输接口,借助高速互连技术两个计算Tile片内传输效率极高。而上一代Gaudi 2 只有24个TPC,48MB缓存,以及2个MME。在算力表现方面,Gaudi 3在BF16精度下可提供4倍的AI计算能力、1.5倍的内存带宽、2倍的网络带宽,支持大规模系统横向扩展,最多可扩展至8192个芯片的参考架构。相比于Gaudi 2在发布时性能方面只能拉着数年前英伟达的A100进行比较,Gaudi 3在性能方面则挑战2022年的英伟达主打产品H100:对比NVIDIA H100,它在流行LLM上的推理性能领先50%、训练时间快40%。Gaudi 3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama 70亿/700亿参数、Falcon 1800亿参数大型语言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。英特尔宣称Gaudi 3的AI表现能力不逊色于去年英伟达推出的H200,但现场并未展示对比性能数据。不过从Gaudi 2 选择跟H100一样的台积电7nm工艺,到Gaudi 3 选择跟H200一样的台积电5nm工艺,究竟Gaudi 3 瞄准的是哪一款英伟达产品已经不言而喻。
为什么我们要说Gaudi 3 的发布给了很多中国AI企业冲击美国GPU在AI算力方面霸权的很好思路借鉴呢?首先,从工艺角度,英特尔放弃自己生产线而选择台积电,这还是在英特尔宣称的4年5代工艺赶超计划进展顺利的基础上,现在从官宣量产工艺上英特尔已经突破了4nm这个节点,甚至一直宣称自己工艺密度方面比TSMC更好。Gaudi 2和Gaudi 3依然选择台积电代工,说明英特尔把自己挑战者的姿态摆得很明白,选择同样的工艺确保在密度和成本上不会有太明显的差异。更重要的原因是,作为很早就放弃ASIC工艺的英特尔,估计自己也没信心去打造可靠的类ASIC晶圆以打造自己对抗英伟达的主力军吧。笔者建议如果英特尔希望更好地挑战英伟达的AI霸主地位,还是重拾ASIC制造技艺,同时好好研究怎么跟自己的Foveros 3D封装更好地结合(不过近期据说英特尔内部结算中制造业务录得的负利润有点可怕,利润差可能需要1个苹果这样量级的客户才能抹平)。其次,Gaudi 3的堆料在NPU方面已经堪称恐怖,当然这也是性能提升基础条件,毕竟习惯于做复杂运算的英特尔曾经并不喜欢用堆料来提升处理能力。对于AI加速和AI推理应用的处理需求,对比英特尔传统的CPU计算需求,大概可以类比于算2的平方和算2的平方差,计算难度不可同日而语,可是如果只需要计算2的平方,GPU的运算单元几乎十倍于CPU,这时候堆运算单元才是正解。所以这次Gaudi 3 直接把TPC从24提升到64,MME更是从2扩充到8个,那么AI加速性能表现大幅提升一点也不奇怪。甚至从整个Gaudi 3目前流出来的架构示意中,我们依稀可以看到更加明显的类ASIC化趋势,如果仔细研究一下从eFPGA到后来的eASIC以及两大FPGA巨头的硬件重新ASIC化的趋势,AI处理器的关键需求正在推动未来NPU和AI加速器芯片重回ASIC。
即使已经推出服务器加速GPU的英特尔还是选择Gaudi 3作为AI加速突破口,国内厂商应该也需要接受短期内很难正面对抗英伟达GPU在AI应用的优势,特别是CUDA不让用就更应该早点暗度陈仓。Gaudi 3第一个值得国产AI处理器企业学习的就是选择新的路线去针对性瞄准AI的一个应用方向堆料。可能整个AI的综合表现不如GPU,但在某一个点能有突破才能有破局的机会,否则只会被压制的越来越狠。现在的AI内核很多,不止有RISC-V这种开源架构,还有Arm的Ethos-U AI 加速器及物联网参考设计平台Corstone-320,以及各种IP供应商的NPU内核,都是可以进行相关AI加速和AI推理等处理器的设计。而且部分内核IP更适合ASIC化,虽然在成本和灵活性方面有所不足,但是可以弥补在性能方面的不足。按照美国对中国AI产业的禁运标准,性能才是目前中国AI芯片最需要突破的一环,先把性能做上去再靠着大规模应用的优势把成本一点点降下来,这才是合理的路径。最重要的一点,ASIC化的芯片虽然失去一些灵活性但是性能表现可以在一定程度弥补工艺的不足。因为国内现在几乎无法设计先进工艺的AI芯片(美国不让),因此我们估计AI芯片的节点暂时最理想也是用7nm,但是国内目前先进封装还是有机会继续选用的,那么最终产品的性能表现似乎也不会相比于国际顶尖水平差太多。最最重要的是,美国目前禁运的技术指标参考的两点是芯片内传输速率和计算能力TFLOPS,但是如果你做成ASIC后,这两个指标的要求其实可以适当降低,但不影响最终芯片的整体性能表现(ASIC固化的优势),这样是不是就可以一定程度上绕开美国禁令中禁止代工厂生产中国厂商AI芯片的部分性能要求,从而能够做出实际应用表现超越管制技术规格的产品。
当然最后一条似乎也是当初中国特供版Gaudi2 的一些技巧,虽然中国特供版Gaudi2晚了一年问世,但目前看Gaudi 3短期内是不要想有特供版了,除非锁死一半的TCPs以及降低三分之一片内传输速率,否则根本没可能绕开禁令中的性能和传输要求。当然如果真那样了,那跟现在的Gaudi2 又有什么区别呢?
作为旁观者,我们不妨去关注Gaudi 3 挑战H200的实际表现和市场接受程度,虽然中国市场几乎不太可能体验到Gaudi 3 但却为国内AI处理器设计厂商提供了正面挑战英伟达 GPU在AI应用霸权的新思路,希望这能为国产AI芯片百花齐放带来有益借鉴。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
相关文章
-
-
-
2024-08-06
-
-
-
-
-