Arm技术日:为AI终端准备了哪些新基石?

  作者:EEPW 王莹 时间:2024-06-27来源:EEPW

过去一年,移动终端设备的长足进步令人赞叹,例如人工智能 (AI) 从手机到笔记本电脑的巨大创新,并诞生了“新一代 AI 手机”和 AIPC。据IDC预测,2024年全球新一代AI手机的出货量将达到1.7亿部,占智能手机市场总量的近15%。在中国市场,新一代 AI 手机在2027年将达到 1.5 亿台,占有超过一半的份额。在AIPC方面,今年是AIPC的发展元年,2028年中国下一代 AIPC 年出货量将是2024年的60倍。

一切皆有可能,且尽在掌控之中,其基石就是新一代的高级计算。为此,Arm不久前在京举办了“技术媒体分享日”,介绍了Arm 终端 CSS、CPU、GPU及Kledi软件与软件社区参与计划等,并回答了媒体问题。

1 概览:使用AI优化的Arm CSS 赋能终端

Arm 终端事业部智能手机市场高级总监 Steve Raphael称,Arm 是实现下一波计算性能需求的基石,不仅赋能设备端实现更高的AI性能,同时聚焦于降低能效,为当今的计算平台带来了高效的性能。

最新的 Arm 计算平台是 Arm 终端计算子系统 (Arm CSS for Client)。Arm首次在终端领域为Arm CPU 和 GPU 交付物理实现。这让构建基于 Arm 架构的解决方案变得更加简单和可靠,同时实现新的性能点和计算能力,并助力加速产品上市进程。

Arm 力求提供更多价值,例如针对新的3纳米工艺节点对整个堆栈进行优化。Arm 终端 CSS 将物理实现与 Armv9 的 AI 优势结合在一起。Armv9 架构是2021 年推出的,专为高性能和 AI 而设计的,并在过去几年中提高了在矢量加速、机器学习 (ML) 等领域的计算能力;增强系统的安全性和稳健性;更重要的是,增加了面向 AI 的功能。在去年 Armv9.2 取得成功的基础上,现在正通过全新的 Arm Cortex-X CPU 和Arm Immortalis GPU 来提供高性能,并以效率为核心,终端 CSS 能够为合作伙伴生态系统带来所需的性能,并且加速其产品上市进程。所有这些与持续的软件投资相结合,为开发者构建起一个平台,帮助他们能够在 Arm 平台上打造更卓越、快速的 AI 体验。

1719442304995403.png

图 Arm终端CCS参考平台

2 终端CSS:面向高端终端设备

Arm 终端事业部产品管理总监 Steve Hopper 首先回顾了 Arm 在终端设备市场的创新之路。自 2021 年以来,Arm 通过全面计算解决方案 (TCS) 不断突破移动端计算的极限。第一代解决方案引入了全新的 Armv9 CPU 集群、性能强大的 Arm Mali GPU 以及一整套系统 IP 产品。2022 年,Arm 发布了第二代全面计算解决方案,带来了 Armv9 CPU 集群,并推出了新的旗舰级 GPU 系列 Arm Immortalis。在去年的全面计算解决方案中,Arm 推出了新一代 Armv9.2 CPU 集群和基于第五代 GPU 架构的新 GPU 系列,持续推进这一势头。Arm的终端解决方案已连续三代实现两位数的性能和效率提升。

1719442346596763.png

在 Specint 和 Geekbench 等基准测试中,计算性能每年提高超过 15%。在各种 GPU 基准测试和实际游戏内容中,图形性能提升超过 20%。更重要的是,Arm持续实现了超过 15% 的同比效率提升。

今年,Arm 将其终端解决方案升级为Arm 终端计算子系统 (CSS),该计算子系统专为高端终端设备细分市场设计,将在性能、效率和可扩展性方面带来突破性变化。

Arm 终端 CSS 囊括最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及知名代工厂采用3纳米工艺生产就绪的 CPU 和 GPU 物理实现。该平台为Arm的合作伙伴提供了生产芯片的最快途径。通过物理实现,Arm 的合作伙伴能够利用前沿3纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。

具体来看,Arm 终端 CSS 采用最新 Armv9.2 CPU 集群,其中集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。这为 AI 和其他实际用例计算工作负载提供出色的性能和效率。

1719442368313471.png

图 Arm终端CSS 的要素

最新发布的Armv9.2 CPU集群在性能上实现了大幅提升,这是得益于Arm从多维度着手进行优化。除了IPC(每时钟周期指令数)的提升,Arm也关注于减少内存延迟,以及最大化内存带宽和缓存大小,从多个关键因素入手,进而实现CPU性能的提高。

而针对能效优化方面,Steve Hopper强调了能效提升是一个多因素的结果,它涉及到工艺节点、核心设计、软件优化以及系统级缓存等多个方面。例如在系统级缓存方面,Arm终端CSS的参考实现中,系统级缓存已经扩展到了16MB,这有助于减少内存流量,进而可降低能耗。

2.1 CPU、GPU和NPU的关系

拍照和拍视频可能是大众最常使用的手机功能之一,而要想拍摄出具有逼真焦外成像 (Bokeh) 效果的照片和视频,并不是一项简单的工作负载。AI 摄像头的焦外成像管线由深度估计、分割、抠图和混合等多个阶段组成,以确保生成高质量的影像。在Steve Hopper的技术分享中列举了一个案例,该案例的管线中的AI可在NPU上运行,但Arm已经证明它同样可以在CPU上运行,并且它的运行速度正越来越快。Arm 终端 CSS 的亮点之一正是计算摄影和 AI 摄像头用例。与去年TCS23中的CPU相比,今年终端CSS中的Cortex-X925运行焦外成像工作负载算法实现了24%的性能提升。当下智能手机市场中的成像解决方案非常复杂,在CPU、GPU和NPU上运行的都有。市场不断创新,涌现出新的算法、数据类型或运算符。CPU 所具备的优势在于它的灵活性,以及可以满足未来技术需求。例如,研发中的新技术可以首先在CPU上实现,而NPU则需要特定的编码,这增加了研发工作的难度。因此,新的算法通常首先出现在CPU或GPU上,最后当硬件分离时才会迁移到 NPU 上。通过CPU与NPU紧密协作,将能共同推动技术前沿的发展。而针对端侧AI推理的处理器协同工作,Steve Hopper表示,CPU因其易于访问并极为灵活,是一个较为理想的进行AI推理的地方。对于卸载到NPU上进行成本比较高的工作负载而言,CPU也是比较合适的运行推理的地方。未来,我们期待看到在高端设备中CPU、GPU和NPU三者相辅相成。但对于一些稍微低级别设备来说,厂商可能很难承担NPU的费用,CPU往往就是一个很好的运行此类工作负载的目标。

3 适用于AI及未来的高性能、高效率CPU集群

在过去的一年里,围绕 2023 Arm 全面计算解决方案 (TCS23) 中的 CPU 集群,人们见到了许多令人瞩目的产品和发布。这些产品共同引领了 AI 等新的高级用例的激增。如今,AI 运行于 Arm 平台和 Arm的 CPU 集群之上。这些工作负载的计算密集度越来越高。因此Arm需要不断发展技术,以应对这一挑战。正是在这一新技术和新用例的交汇之际,Arm推出了新的 Armv9.2 CPU 集群。

Arm 终端事业部高级产品经理 Manish Pandey介绍了两个全新的 IP(旗舰 CPU Arm Cortex-X 系列和高效 CPU Arm Cortex-A700 系列的新产品),以及另外两个经过更新的 IP——可用于3纳米工艺的更新的 Arm Cortex-A500 系列 CPU,以及具有新功能的更新的 DSU。这些产品被集成至 Arm 迄今为止针对安卓系统速度最快的计算平台 —— 新的 Arm 终端CSS。

1719442389997033.png

图 Armv9 CPU集群的代际更新及最新产品

Arm Cortex-X925是Arm迄今为止速度最快、性能最强的CPU,其单线程性能提升了36%,AI性能提高了46%,是Arm Cortex-X 系列有史以来最大幅度的 IPC 同比提升。要实现如此优异的性能,并非只涉及单个因素,而是来自每时钟周期指令数 (IPC)、频率、编译器、操作系统 (OS)、封装等多个方面的投入。除了性能的提升以外,Arm也始终与其合作伙伴需求以及行业发展保持同频,并致力于为其合作伙伴提供相关工具,帮助他们的产品实现逐年的性能提升,并且可以确保最终成品保持在他们的片上面积以及功耗预算之内。

在终端设备市场,随着智能手机性能提升的同时,散热问题也是众所关注的焦点。在这一方面,Arm持续投入,以确保其基础IP在典型的功耗预算内实现最大的性能表现。在Arm终端CSS中,Arm也以特定工艺节点的物理IP为目标,确保在这些工艺节点上获得最佳性能,同时达到最低的能耗和最小的发热量。

3.1 Cortex-X925 的命名含义

与过往Cortex-X系列以个位数命名的方式不同,此次Arm针对Cortex-X925改成了以三位数的命名方式。据了解,今年改名的原因主要在于,Arm革新了新一代 CPU 的设计理念,得益于新设计所实现的微架构改进和频率提升,Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU,通过命名的调整,Arm用来彰显其与前代产品的突出表现。此外,新推出的Immortalis-G925 GPU在性能方面也实现了惊人的提升,通过将 GPU 和 CPU 的命名统一起来,也能清楚表明这两款产品作为旗舰高端 IP的定位。Steve Raphael进一步说明,Arm Cortex-X 系列将持续定位为Arm和合作伙伴定制合作的专用高端 CPU。而对于Cortex-A700 系列,Arm同样看重,也将持续保持这一高效产品线。

3 新GPU定位:从手游到AI

作为人们日常数字生活中不可或缺的一部分,Arm GPU 赋能了从当今智能手机上的沉浸式游戏,到各类边缘侧人工智能 (AI) 体验的方方面面。目前,Arm 合作伙伴的 GPU 出货量已超过 100 亿颗,而这一卓越成就归功于Arm在业界领先的生态系统。这些 GPU 广泛应用于包括智能手机、平板电脑、智能电视、机顶盒、智能手表和 XR 可穿戴设备在内的各类消费电子设备。

去年此时,Arm推出了新的第五代 GPU 架构及一系列新的 GPU,包括 Arm Immortalis-G720 GPU。 MediaTek的天玑 9300 系统级芯片 (SoC) 平台便采用此 GPU。之后,知名手机厂商 vivo 和 OPPO 的旗舰智能手机都先后采用了该芯片。

今年,Arm推出了第二代基于 Arm 第五代 GPU 架构构建的GPU 产品,成为 Arm 终端计算子系统 (CSS) 的重要组件。其中包括新的 Arm Immortalis-G925 GPU、Arm Mali-G725 GPU 和 Arm Mali-G625 GPU,它们适用于从旗舰智能手机、高端手机,到智能手表、入门级移动设备等各类消费电子设备,这些 GPU 产品的两大设计重心:

●   作为手机游戏持续演进的一部分,实现沉浸式视觉体验

●   在主流应用中加速实现AI体验

安谋科技 (Arm China)市场总监王刚提供了一组数据:Immortalis-G925 GPU与 Immortalis-G720 相比,性能提升了 37%。这款产品的多项技术改进,如片段预处理、光线追踪和可扩展性的提升等。Arm还针对一些关键 AI/ML 用例改进了 AI 性能,并与生态系统紧密合作,更大限度地提高了 Arm GPU 的性能。此外,Mali-G725 和 Mali-G625 这两款产品可为各类不同级别的设备带来出色的游戏体验。

1719442416754561.png

图 Immortalis-G925整体性能提升

具体来看下Arm GPU在AI 性能方面的表现,与前几代产品一样,Arm持续提升GPU对AI/ML性能和效率的支持,并关注于AI等主要领域。在图像处理(如分割或分类)方面,与其去年参考平台中的Immortalis-G720相比,Arm终端CSS参考平台中的Immortalis-G925性能显著提升了41%。在超级采样任务中,使用神经网络放大图像时,性能提升了将近30%;在自然语言处理和语音转文本方面,更是取得了50%性能提升。

王刚强调到,在衡量整个GPU的能效和性能时,Arm不局限于某一两种基准测试,而是更注重实际用例的表现,如游戏体验和普通用户的UI使用体验,这些实际应用场景被视为基准测试的重要补充。

4 通过软件加速边缘AI开发

在飞速发展的AI 时代,Arm正支持全球数百万开发者,确保他们能够获得所需的性能、工具和软件库,从而顺利地打造下一波令人惊叹的 AI 体验。

为此,Arm推出了 Arm Kleidi,这是一项广泛的软件和软件社区参与计划,旨在加速 AI 发展。其中的第一个举措是推出面向热门 AI 框架的 Arm Kleidi 软件库。这使开发者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球从云端到边缘侧的大多数 AI 推理工作负载都在这些 Arm CPU 上运行。开发者可以借助 Arm 超过 20 年的架构创新,从 Armv7 架构首次引入高级单指令多数据 (SIMD) 扩展以支持机器学习 (ML) 工作负载,到如今的 Armv9 架构在 Arm CPU 上囊括了加速和保护高级生成式 AI 工作负载的功能,这些创新持续推动 AI 能力和性能的提升。

Arm Kleidi提供了一个轻量级的软件库,由于设计时已尽可能减少了对外部软件环境的依赖性,使其能够轻松整合到多种库中。作为一个开源项目,Kleidi面向全行业开放,也将会不断加入新特性、提升性能,并覆盖更多运算内核。

Kleidi软件库包含面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的KleidiCV。该软件库可以被直接嵌入到热门的 AI 框架中,开发者无需进行任何操作。如此一来,开发者可以轻松地启用Arm CPU的AI功能,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。

1719442473989625.png

总结来说,安谋科技 (Arm China) 开发者生态高级经理李陈鲁在讲演中分享了的内容涵盖了, Kleidi 将能在使用 Arm CPU 的任何地方加速 ML;通过Arm的协作、内容创作和工具方面的突破,进一步推动移动图形渲染不断挑战未来极限;通过Arm对 Chromium、ADPF 的贡献以及 MTE 在消费电子设备中的落地来进一步增强安卓系统;以及在打造 Windows on Arm 的原生生态系统方面取得了巨大进展。

关键词: Arm AI AIPC

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版