Arm技术日:为AI终端准备了哪些新基石?
编者按:过去一年,移动终端设备的长足进步令人赞叹,例如人工智能(AI)从手机到笔记本电脑的巨大创新,并诞生了“新一代AI手机”和AIPC。据IDC预测,2024年全球新一代AI手机的出货量将达到1.7亿部,占智能手机市场总量的近15%。在中国市场,新一代AI手机在2027年将达到1.5 亿台,占有超过一半的份额。在AIPC方面,今年是AIPC的发展元年,2028 年中国下一代AIPC年出货量将是2024年的60倍。
一切皆有可能,且尽在掌控之中,其基石就是新一代的高级计算。为此,Arm不久前在京举办了“技术媒体分享日”,介绍了Am终端CSS、CPU、 GPU及Kledi“软件与软件社区参与计划”等,并回答了媒体问题。
1 概览:使用Al优化的Arm CSS赋能终端
Arm终端事业部智能手机市场高级总监Steve Raphael称,Am是实现下一波计算性能需求的基石,不仅赋能设备端实现更高的AI性能,同时聚焦于降低能效,为当今的计算平台带来了高效的性能。
最新的Arm计算平台是Am终端计算子系统(Arm CSSforClient)。Arm首次在终端领域为ArmCPU和GPU交付物理实现(如图1)。这让构建基于Arm架构的解决方案变得更加简单和可靠,同时实现新的性能点和计算能力,并助力加速产品上市进程。
图1 Arm终端CCS参考平台
Arm力求提供更多价值,例如针对新的3纳米工艺节点对整个堆栈进行优化。Am终端CSS将物理实现与Armv9的AI优势结合在一起。 Armv9架构是2021年推出的,专为高性能和AI而设计的,并在过去几年中提高了在矢量加速、机器学习(ML)等领域的计算能力;增强系统的安全性和稳健性;更重要的是,增加了面向AI的功能。在去年Armv9.2取得成功的基础上,现在正通过全新的Arm Cortex+ -x CPU和Arm Immortalis GPU来提供高性能,并以效率为核心,终端CSS能够为合作伙伴生态系统带来所需的性能,并且加速其产品上市进程。所有这些与持续的软件投资相结合,为开发者构建起-一个平台,帮助他们能够在Arm平台上打造更卓越、快速的AI体验。
2 终端CSS:面向高端终端设备
Amm终端事业部产品管理总监Steve Hopper首先回年以来,Arm通过全面计算解决方案(TCS)不断突破移年以来,Arm 通过全面计算解决方案(TCS)不断突破移动端计算的极限。第一代解决方案引入了全新的Amv9 CPU集群、性能强大的Arm Mali GPU以及一整套系统IP产品。2022年, Arm发布了第二代全面计算解决方案,带来了Armv9 CPU集群,并推出了新的旗舰级GPU系列Arm Immortalis。在去年的全面计算解决方案中,Am推出了新一代Amv9.2 CPU集群和基于第五代GPU架构的新GPU系列,持续推进这一势头。 Arm的终端解决方案已连续三代实现两位数的性能和效率提升。
图2
在Specint和Geekbench等基准测试中,计算性能每年提高超过15%。在各种GPU基准测试和实际游戏内容中,图形性能提升超过20%。更重要的是,Arm持续实现了超过15%的同比效率提升。
今年,Am将其终端解决方案升级为Arm终端计算子系统(CSS),该计算子系统专为高端终端设备细分市场设计,将在性能、效率和可扩展性方面带来突破性变化。
Am终端CSS囊括最新的Amv9.2 Cortex CPU集群和Arm Immortalis与Arm Mali GPU、CoreLink互连系统IP,以及知名代工厂采用3纳米工艺生产就绪的CPU和GPU物理实现。该平台为Am的合作伙伴提供了生产芯片的最快途径。通过物理实现,Arm的合作伙伴能够利用前沿3纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。
具体来看,Arm终端CSS采用最新Armv9.2 CPU集群,其中集成了Arm目前最高性能的Arm Cortex-X925 CPU、最高效的Cortex- -A725 CPU和更新后的Cortex-A520 CPU。这为AI和其他实际用例计算工作负载提供出色的性能和效率(图3)。
图3 Arm终端CSS的要素
最新发布的Armv9.2 CPU集群在性能上实现了大幅提升,这得益于Am从多维度着手进行优化。除了内存延迟,以及最大化内存带宽和缓存大小,从多个关内存延迟,以及最大化内存带宽和缓存大小,从多个关键因素入手,进而实现CPU性能的提高。
而针对能效优化方面, Steve Hopper强调了能效提升是一个多因素的结果,它涉及到工艺节点、核心设计、软件优化以及系统级缓存等多个方面。例如在系统级缓存方面,Arm终端CSS的参考实现中,系统级缓存已经扩展到了16MB,这有助于减少内存流量,进而可降低能耗。
2.1 CPU、GPU和NPU的关系
拍照和拍视频可能是大众最常使用的手机功能之一,而要想拍摄出具有逼真焦外成像(Bokeh)效果的照片和视频,并不是一-项简单的工作负载。AI摄像头的焦外成像管线由深度估计、分割、抠图和混合等多个阶段组成,以确保生成高质量的影像。在Steve Hopper的技术分享中列举了一个案例,该案例的管线中的AI可在NPU上运行,但Arm已经证明它同样可以在CPU上运行,并且它的运行速度正越来越快。Am终端CSS的亮点之一正是计算摄影和AI摄像头用例。与去年TCS23中的CPU相比,今年终端CSS中的Cortex- X925运行焦外成像工作负载算法实现了24%的性能提升。
当下智能手机市场中的成像解决方案非常复杂,在CPU、GPU和NPU上运行的都有。市场不断创新,涌现出新的算法、数据类型或运算符。CPU 所具备的优势在于它的灵活性,以及可以满足未来技术需求。例如,研发中的新技术可以首先在CPU上实现,而NPU则需要特定的编码,这增加了研发工作的难度。因此,新的算法通常首先出现在CPU或GPU上,最后当硬件分离时才会迁移到NPU上。通过CPU与NPU紧密协作,将能共同推动技术前沿的发展。
而针对端侧AI推理的处理器协同工作,Steve Hopper表示,CPU因其易于访问并极为灵活,是一个较为理想的进行AI推理的地方。对于卸载到NPU上进行成本比较高的工作负载而言,CPU也是比较合适的运行推理的地方。未来,期待看到在高端设备中CPU、GPU和NPU三者相辅相成。但对于一些稍微低级别设备来说,厂商可能很难承担NPU的费用,CPU往往是运行此类工作负载的理想目标。
3 适用于Al及未来的高性能、高效率CPU集群
在过去的一年里,围绕2023 Arm全面计算解决方案(TCS23)中的CPU集群,人们见到了许多令人瞩目的产品和发布。这些产品共同引领了AI等新的高级用例的激增。如今,AI运行于Arm平台和Arm的CPU集群之,上。这些工作负载的计算密集度越来越高。因此Arm需要不断发展技术,以应对这一挑战。 正是在这一新技术和新用例的交汇之际,Arm推出了新的Armv9.2CPU集群(图4)。
图4 Armv9 CPU集群的代际更新及最新产品
Arm终端事业部高级产品经理ManishPandey介绍了两个全新的IP (旗舰CPU Arm Cortex-X系列和高效CPU Arm Cortex-A700系列的新产品),以及另外两个经过更新的IP一可用于3纳米工艺的更新的Amm Cortex—A500系列CPU,以及具有新功能的更新的DSU。这些产品被集成至Arm迄今为止针对安卓系统速度最快的计算平台一新的 Arm终端CSS。
Arm Cortex-X925是Arm迄今为止速度最快、性能最强的CPU,其单线程性能提升了36%,AI 性能提高了46%,是Arm Cortex- -X系列有史以来最大幅度的IPC同比提升。要实现如此优异的性能,并非只涉及单个因素, 而是来自每时钟周期指令数(IPC)、 频率、编译器、 操作系统(OS)、封装等多个方面的投入。除了性能的提升以外,Arm也始终与其合作伙伴需求以及行业发展保持同频,并致力于为其合作伙伴提供相关工具,帮助他们的产品实现逐年的性能提升,并且可以确保最终成品保持在他们的片上面积以及功耗预算之内。
在终端设备市场,随着智能手机性能提升的同时,散热问题也是众所关注的焦点。在这一-方面, Arm持续投入,以确保其基础IP在典型的功耗预算内实现最大的性能表现。在Arm终端CSS中,Arm也以特定工艺节点的物理IP为目标,确保在这些工艺节点上获得最佳性能, 同时达到最低的能耗和最小的发热量。
3.1 Cortex-X925的命名含义
此次Arm针对Cortex- -X925改成了以三位数的命名方此次Arm针对Cortex- -X925改成了以三位数的命名方式。据了解,今年改名的原因主要在于,Arm革新了新一代CPU的设计理念,得益于新设计所实现的微架构改进和频率提升,Cortex- -X925 是Cortex- -X推出以来取得最高IPC同比增幅的CPU,通过命名的调整,Arm用来彰显其与前代产品的突出表现。此外,新推出的Immortalis- -G925 GPU在性能方面也实现了惊人的提升,通过将GPU和CPU的命名统一起来,也能清楚表明这两款产品作为旗舰高端IP的定位。Steve Raphael进一步说明, Arm Cortex- -X系列将持续定位为Arm和合作伙伴定制合作的专用高端CPU。而对于Cortex-. A700系列,Arm同样看重,也将持续保持这一高效产品线。
3 新GPU定位:从手游到AI
作为人们日常数字生活中不可或缺的一部分,Arm GPU赋能了从当今智能手机上的沉浸式游戏,到各类边缘侧人工智能(AI) 体验的方方面面。目前,Arm合作伙伴的GPU出货量已超过100 亿颗,而这一卓越成就归功于Arm在业界领先的生态系统。这些GPU广泛应用于包括智能手机、平板电脑、智能电视、机顶盒、智能手表和XR可穿戴设备在内的各类消费电子设备。
去年此时,Am推出了新的第五代GPU架构及一系 列新的GPU,包括Arm Immortalis -G720 GPU。MediaTek的天玑9300系统级芯片(SoC)平台便采用此GPU。之后,知名手机厂商vivo和OPPO的旗舰智能手机都先后采用了该芯片。
今年,Amm推出了第二代基于Am第五代GPU架构构建的GPU产品,成为Am终端计算子系统(CsS)的重Malir -G725 GPU和Amm Malir -G625 GPU,它们适用于从旗舰智能手机、高端手机,到智能手表、入门级移动设备等各类消费电子设备,这些GPU产品的两大设计重心:
● 作为手机游戏持续演进的一部分,实现沉浸式视觉体验;
● 在主流应用中加速实现AI体验。
安谋科技(Arm China)市场总监王刚提供了一组数据:Immortalis——G925 GPU与Immortal—G720相比,性能提升了37%。这款产品还有多项技术改进,如片段预处理、光线追踪和可扩展性的提升等(图5)。Arm还针对- -些关键AIML用例改进了AI性能,并与生态系统紧密合作,更大限度地提高了Arm GPU的性能。此外,Mali-G725和Mali——G625这两款产品可为各类不同级别的设备带来出色的游戏体验。
图5 Immortalis- G925整体性能提升
具体来看下Am GPU在AI性能方面的表现,与前几代产品一样,Am持续提升GPU对AI/ML性能和效率的支持,并关注于AI等主要领域。在图像处理(如分割或分类)方面,与其去年参考平台中的Immortalis-G720相比,Am终端CSS参考平台中的Immortalis -G925性能显著提升了41%。在超级采样任务中,使用神经网络放大图像时,性能提升了将近30%;在自然语言处理和语音转文本方面,更是取得了50%性能提升。
王刚强调道,在衡量整个GPU的能效和性能时,Am不局限于某一两种基准测试, 而是更注重实际用例的表现,如游戏体验和普通用户的UI使用体验,这些实际应用场景被视为基准测试的重要补充。
4 通过软件加速边缘AI开发
在飞速发展的AI时代,Arm正支持全球数百万开发者,确保他们能够获得所需的性能、工具和软件库, 从而顺利地打造下一波令人惊叹的AI体验。
为此,Arm推出了Arm Kleidi,这是一项广 泛的“软件和软件社区参与计划”,旨在加速AI发展。其中的第一个举措是推出面向热门AI框架的Arm Kleidi软件库。这使开发者可以直接取得Am CPU的出色AI功能,而如今全球从云端到边缘侧的大多数AI推理工作负载都在这些Amm CPU上运行。开发者可以借助Arm超过多数据(SIMD)扩展以支持机器学习(ML)工作负载,多数据(SIMD)扩展以支持机器学习(ML)工作负载,到如今的Armv9架构在Arm CPU上囊括了加速和保护高级生成式AI工作负载的功能,这些创新持续推动AI能力和性能的提升。
Arm Kleidi提供了一个轻量级的软件库,由于设计时已尽可能减少了对外部软件环境的依赖性,使其能够轻松整合到多种库中。作为一个开源项目,Kleidi面向全行业开放,也将会不断加入新特性、提升性能,并覆盖更多运算内核。
Kleidi软件库包含面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的KleidiCV (图6)。该软件库可以被直接嵌入到热[门]的AI框架中,开发者无需进行任何操作。如此一来,开发者可以轻松地启用Arm CPU的AI功能,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。
图6
总结来说,安谋科技(Arm China)开发者生态高级经理李陈鲁在讲演中分享了的内容涵盖了:Kleidi 将能在使用Arm CPU的任何地方加速ML;通过Arm的协作、内容创作和工具方面的突破,进一步推动移动图ADPF的贡献以及MTE在消费电子设备中的落地来进ADPF的贡献以及MTE在消费电子设备中的落地来进一步增强安卓系统;以及在打造Windows on Arm的原生生态系统方面取得了巨大进展。
(本文来源于《EEPW》202407)
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
相关文章
-
-
-
-
-
2024-07-12
-
-
-