高通AI技术白皮书解读，看NPU和异构计算如何开启终端侧AI新时代-中关村在线

随着生成式AI技术的迅速普及与终端侧AI需求日益增强，高通作为全球领先的芯片企业和AI技术推动者，在近日发布了全新的《通过NPU和异构计算开启终端侧生成式AI》白皮书，深度解析了高通所带来的NPU技术，并探讨如何通过NPU与异构计算的融合，在终端侧实现丰富多样的生成式AI应用案例。

相信对于大众消费者来说，这里面很多概念和术语是比较陌生的，笔者根据自己搜集到的信息，结合高通的一些资料，简单说一说：高通是如何通过新技术来推动终端侧AI发展的？

在了解其意义之前，有必要搞明白以下几个疑问：

什么是NPU和异构计算？

为什么NPU和异构计算更适用于生成式AI？

高通终端侧AI的优势又是什么？

目前已经有了哪些行业用例？

首先来说一说NPU。NPU也叫神经网络处理器，这是一种专门设计用于加速深度学习任务和机器学习算法的处理器。深度学习是AI的一个分支，在机器学习中占据核心地位，它在处理图像识别、语音识别、自然语言处理等神经网络模型场景时发挥着重要作用，而NPU能够显著加速深度学习模型的推理和训练过程，另外NPU有更高的能效比，更适用于边缘计算设备和移动终端。

异构计算是指在一个计算系统中使用不同类型的处理器或者计算单元来协同完成计算任务的技术，这些单元包括CPU、GPU、以及如NPU这样的专用加速器。它的目的在于通过结合不同处理器的优势，来提高系统的整体性能、效率和适应各种复杂计算场景的能力，同时解决单一架构在功耗、散热等方面的局限性。

简单地说，就是通过异构计算将生成式AI任务中不同类型的计算任务分配给最适合的计算单元。例如，面对丰富的生成式AI用例，CPU适用于需要低时延的应用场景，或者相对较小的传统模型，如卷积神经网络模型（CNN），以及一些特定的大语言模型（LLM）；GPU擅长面向高精度格式的并行处理，比如对画质要求非常高的图像以及视频处理；在持续型用例中，需要以低功耗实现持续稳定的高峰值性能，NPU可以发挥其最大优势。

那么NPU和异构计算会更适用于生成式AI吗？

答案是肯定的。实际上，生成式AI涉及大量的数据处理和复杂的计算任务，尤其是深度学习模型的训练和推理。

这些任务对计算资源的要求极高，单独依靠传统的CPU或GPU可能无法满足性能要求。NPU专为神经网络计算设计，能够模拟人类神经元和突触的工作方式，对AI计算涉及的大量神经网络模型进行特殊优化，从而提高处理效率和降低能耗。

其次，异构计算的出现进一步提升了生成式AI的计算能力。异构计算通过整合不同架构的计算单元（如CPU、GPU、NPU等），使它们能够并行工作，从而充分发挥各自的优势。

此外，随着生成式AI应用的不断扩展和复杂化，对算力的需求也在持续增长。NPU和异构计算的结合能够更好地满足这种需求，以高通为例，CPU、GPU等计算单元每年都有迭代，并且每一次迭代都会带来巨大的性能升级，推动生成式AI技术的进一步发展和应用。

接下来我们再来聊一聊高通终端侧AI的优势在哪里？

首先，高通AI引擎一直都是采用异构计算设计的，它包括了CPU、GPU、NPU（神经网络处理器）以及高通传感器中枢等处理器组件，因此在进行AI处理时，可以灵活选择最佳处理器。此外，NPU作为一颗“AI专用”处理器，在CPU、GPU被占用过高时，依旧能够继续工作，保持AI体验的完整性和连续性。

与此同时，高通NPU具备业界领先的每瓦特性能，比如在Stable Diffusion或其他扩散模型中，高通NPU的每瓦特性能表现就很出色。高通AI引擎的其他关键核心，比如Adreno GPU，一样拥有业界领先的每瓦特性能。

而在性能方面，目前Hexagon NPU能够在终端侧运行高达100亿参数的模型，无论是首个token的生成速度还是每秒生成token的速率都处在业界领先水平。Hexagon NPU还引入了微切片推理技术，增加了能够支持所有引擎组件的大共享内存，以实现领先的LLM处理能力。

此外，高通传感器中枢能够以极低功耗运行始终开启的用例。通过将低功耗AI能力集成到芯片子系统中，芯片能够获取大量终端侧的情境信息，主打一个个性化AI体验，这也是终端侧AI的独特优势之一，并且个性化信息都将保留在终端上，云端无法获取。

内存方面，第三代骁龙8等高通产品已经支持业界最为领先的LPDDR5x内存，频率高达4.8GHz，能够支持以非常高速的芯片内存读取速度运行百川、Llama 2等大语言模型，实现非常快的token生成速率。

接下来介绍一个具体的用例。

首先是AI旅行助手，可以直接对模型提出规划旅游行程的需求。AI助手能够立刻给到航班行程建议，并与用户进行语音对话调整行程，最后通过Skyscanner插件创建完整航班日程。

而在语音助手方面，基于生成式AI打造终端侧的虚拟化身AI助手，可以与用户实现语音互动和交流，它可以根据不同模型在语音和文本之间进行转换，最终输出语音，同时还通过融合变形动画技术让语音与虚拟化身的嘴型匹配，实现音话同步。此后通过虚幻引擎MetaHuman进行虚拟化身渲染，这部分渲染工作在Adreno GPU上完成。

最后：

每次聊到高通在终端侧AI的发展，有一点不能忽略，那就是规模。在智能手机领域，高通SoC市场占有率常年保持领先，这是众所周知的事实，而在其他诸如消费电子、工业物联网、云边计算等等多元化的场景，搭载骁龙芯片或者高通服务的终端设备同样数以“几十亿”计，这无疑为终端侧AI技术的广泛普及和深入发展创造了庞大的生态系统。

与此同时，高通不仅致力于硬件层面的创新设计，更是在全栈式AI研究上持续发力，包括算法优化、软件开发工具包（SDK）升级以及开发者服务支持等方面，确保其AI解决方案能够在各类终端上实现高效运行，并不断推动AI模型在端侧的小型化、快速响应及低功耗执行能力的进步。通过这种软硬件一体化的策略，高通成功地促进了终端侧AI技术的商业化落地和规模化扩展，推动整个行业的进步和发展。