2026年6月26日,在上海举办的2026年世界移动通信大会期间,华为与中国移动通信集团湖北有限公司共同宣布,双方已完成国内运营商首个AI推理加速解决方案的现网验证测试。
该方案依托华为OceanStor A800存储系统与昇腾A3超节点架构,并集成统一缓存管理技术(UCM),专为长序列AI推理场景设计。实测表明,在典型长上下文任务中,Token吞吐率最高提升达372%,显著增强了运营商智能计算业务的规模化部署能力。
本次测试在湖北移动真实网络环境中展开,采用vLLM-Ascend推理框架,覆盖MiniMax M2.5、GLM-5.1等主流大语言模型,输入序列长度从8K延伸至190K,全面检验方案在不同规模长文本场景下的适应性与稳定性。
在MiniMax M2.5模型测试中,启用UCM后,首Token生成延迟(TTFT)缩短26%至62%,单NPU卡的Token输出速率(TPS)同步提升:64K序列下TPS提高58%,128K序列下提升78%。
在GLM-5.1模型测试中,加速效果更为突出:TTFT优化幅度达51%至93%,TPS提升范围为56%至372%。其中,64K序列下TPS增长313%,128K序列下实现最高372%的跃升。
测试结果证实,随着上下文长度持续增加,该推理加速方案的性能优势不断凸显,有效突破了传统长序列推理中KV缓存容量受限的关键瓶颈。对于运营商而言,该技术可显著提升智算资源在大模型推理、智能客服、内容生成及行业智能体等长上下文业务中的使用效率,同时缓解高负载推理带来的性能压力。

评论
更多评论