软银计划以AI供电为突破口,另辟蹊径能否重新崛起?
孙正义在旗下电信子公司软银公司的股东大会上发表讲话称,目前软银旗下的全资子公司SB Energy已经在美国经营再生能源发电业务,并将继续在海外物色投资标的,加强发电业务,为全球人工智能项目提供电力。
Part.01 新一波进化的种子
去年9月14日,ARM以当年美股最大的IPO交易登陆纳斯达克,最新数据显示,ARM的市值已经达到约1664.28亿美元(截至2025年7月1日),软银则持有ARM约90%左右的股份。同时,OpenAI打造的ChatGPT火遍全球,成为AI领域的现象级应用,引发了全球互联网公司的AIGC“军备竞赛”,ARM也在加强AI芯片方向的布局,计划在2025年推出首批产品,一旦建立批量生产体系,AI芯片业务可能会分拆出来置于软银旗下。
之前失败的经历让孙正义急切地寻找一枚新的种子,“All in AI”的野心证明了人工智能就是这枚种子。现在,孙正义找到了投资更明确的方向 —— AI供电业务。当前,生成式人工智能技术的基础就是以数据和算力堆叠为标志的大模型,其训练和应用需要大量的算力支持,算力背后则是算力基础设施耗电所带来的巨大电能需求。
AI究竟能消耗多少电量?如果更直观地去看AI行业的能源需求,国际能源署今年初发布的报显示,一次谷歌搜索平均耗电0.3瓦时,而ChatGPT响应一条请求平均耗电2.9瓦时。以谷歌每天处理90亿次搜索计算,换算成ChatGPT处理这些请求,一年将需要多消耗100亿千瓦时(1千瓦时相当于1度电)的额外电力。
埃隆·马斯克表示电力缺口最早可能会在2025年发生,成为制约AI发展的主要因素;OpenAl的创始人山姆·奥特曼认为,未来AI技术的发展将高度依赖于能源,特别是光伏和储能技术的进步;英伟达CEO黄仁勋也表示,人工智能的未来发展与状态和储能紧密相连,不应仅仅关注计算力,而是需要更全面地考虑能源消耗问题。
随着生成式人工智能的广泛应用,预计到2027年,整个人工智能行业每年将消耗85至134太瓦时(1太瓦时=10亿千瓦时)的电力,这显示了AI技术对电力资源的巨大需求。有业内人士表示,大模型训练成本中60%都是电费。
Part.02 AI背后的电力革命
AI大模型对电力的消耗主要体现在模型训练和推理环节:在训练阶段,首先需要收集和预处理大量的文本数据用作输入数据,然后在适当的模型架构中初始化模型参数,处理输入的数据,尝试生成输出,再根据输出与预想之间的差异,反复调整参数,直到模型的性能不再显著提高为止;而在推理阶段中,则会先加载已经训练好的模型参数,预处理需要推理的文本数据,再让模型根据学习到的语言规律生成输出。
无论是训练还是推理阶段,都是一连串信息重组过程,模型的参数量越大,需要处理的数据越多,所需的计算量也就越大,所消耗的能量也就越大,而ChatGPT这样基于大语言模型的生成式人工智能需要大量的数据集。GPT-3模型拥有1750亿参数,而据推测GPT-4拥有1.8万亿参数,是GPT-3的十倍。要训练这种规模的模型,需要在大规模数据集上反复迭代,每一次迭代都需要计算和调整其中数十亿、数百亿乃至数千亿个参数的值。
大模型的参数和数据规模越大,其智能效果就越好。在大模型中,“Scaling Laws”(规模效应)意味着当参数和数据规模大到一定程度时,大模型的智能表现将出现跃升,也就是“智能涌现”。以OpenAI为代表的人工智能公司在“Scaling Laws”的驱使下,还在持续增加大模型的参数和数据规模,以求实现通用人工智能(AGI)的目标,造成短期内算力需求和电能需求的巨大提升。
参数量的激增将导致能耗显著增加,在OpenAI训练大语言模型GPT-4时,完成一次训练需要约三个月时间,使用大约25000块英伟达A100 GPU。每块A100 GPU都拥有540亿个晶体管,功耗400瓦,每秒钟可以进行19.5万亿次单精度浮点数的运算,仅仅是这些GPU一次训练就用了2.4亿度电。
除了模型训练以外,AI在推理阶段的耗能也不容忽视,推理即大模型响应用户需求的过程,大模型单次响应用户需求的耗电量并不大,但随着用户规模的增加,耗电量也将不断累积并增大。在有限时空范围内进行大模型训练,会给局部电网带来非常大的用电负荷,如果将10万块英伟达H00芯片部署在同一地区进行模型训练,会导致电网崩溃。
Part.03 如何解决高耗能问题?
数据中心、智算中心等算力基础设施是人工智能(AI)的数据中枢和算力载体,尤其是生成式人工智能(AIGC)和大模型技术的快速发展,算力需求激增,AI的能耗问题也越来越受到关注。不可否认,未来人工智能需要能源方面的突破,因为人工智能消耗的电力将远远超过人们的预期。随着AI大模型的技术竞争进入纵深阶段,行业开始将注意力转向模型训练所需的能源领域。
AI热潮背后的电力短缺风险成为科技圈内热议的焦点,在业内人士看来,这背后核心原因在于AI大模型训练所消耗的电力主要集中在数据中心领域,而当前数据中心建设正面临着供需错配的结构性难题。而且AI模型的规模不断扩大,电力成本也在不断上升,一些数据中心运营商为了应对运行AI应用程序产生的额外成本,已经开始提高商业租赁价格。
于AI巨大的能源需求,当前不少科技巨头均在“未雨绸缪”,为AI的长远发展积蓄电力。当下的重点在于开源,风能、光伏等可再生新能源被视作数据中心重要的能量池,核能尤其被寄予厚望。
· 微软与能源创业公司Helion Energy签订购电协议,宣布2028年将从Helion Energy构建的第一座核聚变发电厂购买电力。
· OpenAI也开始与Helion Energy接触,计划从它的核聚变电厂中采购大量电力用于支持其数据中心的运营。值得注意的是,奥特曼自身就向Helion Energy投资了3.75亿美元,这也是他有史以来最大的一笔个人出资。
· 亚马逊云服务公司(AWS)收购美国宾夕法尼亚州一座数据中心园区,据了解,该园区就是从邻近的核电站获取电力。
由于几乎无限的燃料供应、环境友好、能量密度高、安全性高,核聚变被视为解决能源危机和气候变化问题的关键技术。得益于多个国家和私营企业的积极参与以及技术突破,全球核聚变商业化的进展正在加速。此外,数据中心还可以通过智能算法来优化能源使用效率,实现AI与电网的协同发展。
面对未来可能发生AI“缺电”的情况,需要寻找合适的解法,让有限的电力能源可以容纳更大的算力规模。从需求角度看,优化模型本身的算法和架构、硬件优化、提升芯片效率和算力效率等,被认为是降低AI能耗的有效途径,是接下来的重点研发方向。
算法和模型优化:通过算法优化,如剪枝(pruning)、量化(quantization)、蒸馏(distillation)等技术,以及模型压缩技术,减少模型的复杂度,同时保持或接近原有的性能。近年来提出的一些轻量级模型(如MobileNet)就是为了低功耗场景而设计的。
硬件优化:开发和使用更高效的AI专用硬件,如英伟达开发的GPU T4和A100,谷歌开发的TPU(Tensor Processing Unit),这些硬件专为AI任务设计,能够在更低的能耗下提供更高的计算效率。
调整训练和计算技巧:训练技巧是一种通过调整神经网络的训练过程来优化计算资源的方法,例如,分布式训练技术可以利用多台计算机分担大规模计算的负荷;另外,将AI计算任务从云端转移到边缘设备,这样可以减少数据传输所需的能量,并利用边缘设备的低功耗特性。
提高数据中心的能效:通过优化数据中心的设计和管理,提高电源使用效率,例如,使用更高效的冷却系统或者通过AI技术动态调整数据中心的运行状态以降低能耗。
Part.04 AI不仅费电,还费水
AI公司通常依赖数据中心来提供必要的计算资源,这些数据中心不仅需要电力来运行服务器,还需要大量的电力来维持冷却系统,以防止设备过热。除了耗电,算力设备的冷却需求让AI的耗水量也让人瞠目结舌 —— 服务器消耗的电能绝大部分转化成了热能,最后通过水冷系统释放出来,费电的背后还费水。
谷歌发布的2023年环境报告显示,公司前一年的用水量同比显著增加了20%,达到56亿加仑(21198305立方米),而其中绝大部分都被用于为该公司的数据中心散热。而这并不是个例,估算训练GPT-3所需的清水量相当于填满一个核反应堆的冷却塔所需的水量。ChatGPT(在GPT-3推出之后)每与用户交流25到50个问题,就得“喝下”一瓶500毫升的水来降温。
当前数据中心耗水也成为制约数据中心快速发展的因素之一,很多企业尝试用各种方法为数据中心散热,例如,微软曾尝试部署海下数据中心,Facebook数据中心选址北极圈附近,阿里云千岛湖数据中心使用深层湖水制冷。
在AI快速进步的道路上,对水资源的消耗也不断加码升级,要对AI进行大量训练也就意味着需要更强的算力中心和与之匹配的散热能力。实际上,AI本质上是一种计算机技术和处理信息的技术,背后则需要大量GPU芯片,更底层则是大量电能、水力、风能、资金等资源的支持。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码