对于人工智能(AI)而言,任何单一硬件或计算组件都无法成为适合各类工作负载的万能解决方案。AI贯穿从云端到边缘侧的整个现代计算领域,为了满足不同的AI用例和需求,一个可以灵活使用CPU、GPU和NPU等不同计算引擎的异构计算平台必不可少。
依托于Arm CPU的性能、能效、普及性、易于编程性和灵活性,从小型的嵌入式设备到大型的数据中心,Arm CPU已经为各种平台上的AI加速奠定了基础。
就灵活性而言,这对生态系统大有裨益的三个主要原因是,首先,Arm CPU可以处理广泛的AI推理用例,其中许多用例通常用于数十亿台设备,例如当今的智能手机、云和数据中心。不仅如此,除了推理之外,CPU还经常用于技术栈中的数据预处理和编排等其他任务。其次,开发者能够在更多种类的数据格式中运行更广泛的软件,而无需构建多个版本的代码。最后,CPU的灵活性使之成为加速AI工作负载的理想工具。
提供多样性和选择,助力行业灵活部署AI计算
除了CPU产品组合外,Arm计算平台还包括GPU和NPU等AI加速器技术,许多市场都在将这些技术与CPU进行集成。
在移动端领域,Arm终端计算子系统(CSS)包含Armv9.2 CPU 集群,并与Arm Immortalis-G925 GPU 集成,可为各种AI用例提供加速功能,包括图像分割、对象检测、自然语言处理和语音转文本等用例。在物联网(IoT)方面,Arm Ethos-U85 NPU可与需要加速AI性能的基于Arm Cortex-A的系统一起设计,例如工厂自动化等场景。
此外,除了Arm自己的加速器技术外,合作伙伴借助Arm的CPU灵活定制具有差异化的芯片解决方案。例如,NVIDIA用于AI基础设施的Grace Blackwell 和Grace Hopper超级芯片均采用了Arm CPU和NVIDIA的AI加速器技术,从而显著提升AI性能。
NVIDIA Grace Blackwell超级芯片将NVIDIA的Blackwell GPU架构与基于Arm Neoverse的Grace CPU相结合。Arm独特的产品组合使NVIDIA能够进行系统级设计优化,与NVIDIA H100 GPU相比,其能耗降低了25倍,单个GPU性能提高了30倍。具体来说,得益于Arm Neoverse平台的灵活性,NVIDIA能够实现自有的高带宽NVLink互连技术,并提升CPU、GPU和内存之间的数据带宽和延迟。
Arm致力于通过Arm全面设计生态项目,为整个生态系统注入AI加速的机遇。通过该生态项目,开发者可以更快访问Arm CSS技术,赋能软硬件技术进步,以此驱动AI和芯片创新,并加快开发和部署AI优化的芯片解决方案。
Arm架构满足AI所需的独特灵活性
Arm CPU设计所具有灵活性关键在于Arm领先的架构。它提供了一个可以与AI加速器技术紧密集成的基础平台,并支持从128位到2048位的各种向量长度,可以在许多不同的数据点上轻松执行多个神经网络。
Arm架构的灵活性为整个芯片生态系统提供了多样化的定制机会,Arm一直致力于帮助合作伙伴更快地构建自己的差异化芯片解决方案。这种独特的灵活性也使Arm能够不断进行架构创新,定期推出关键指令和功能来加速AI计算,进而惠及整个生态系统,其中包括领先的芯片合作伙伴,以及在Arm计算平台上构建应用的2,000多万软件开发者等。
这一切始于Armv7架构,该架构引入了高级单指令多数据(SIMD)扩展,例如Neon技术,这是Arm首次涉足机器学习(ML)工作负载。在过去几年中,该架构不断增强,Armv8中增加了向量点积和矩阵乘法特性,之后在Armv9中又引入了Arm SVE2和新的Arm SME技术,为广泛的生成式AI工作负载和用例提高了计算性能并降低了功耗。
与AI加速器技术无缝集成
Arm是AI时代的计算平台,推动了持续的架构创新,以满足速度更快、互动性更好和沉浸感更强的AI应用的发展。Arm CPU作为灵活处理AI工作负载的异构计算方法中的一部分,可以无缝增强和集成GPU和NPU等AI加速器技术。
Arm CPU是处理众多AI推理工作负载的实用之选,凭借出色的灵活性,它能够与加速器技术无缝集成,打造更强大、更高性能的AI功能,精准满足特定用例和计算需求。对于Arm的技术合作伙伴而言,出色的灵活性有助于实现丰富的定制选择,使他们能够为AI工作负载构建完整的芯片解决方案。
评论