中关村在线

热点资讯

华为携手湖北移动完成国内首个AI推理加速方案现网验证

2026年6月26日,在上海举办的2026年世界移动通信大会期间,华为与中国移动通信集团湖北有限公司共同宣布,双方已完成国内运营商首个AI推理加速解决方案的现网验证测试。

该方案依托华为OceanStor A800存储系统与昇腾A3超节点架构,并集成统一缓存管理技术(UCM),专为长序列AI推理场景设计。实测表明,在典型长上下文任务中,Token吞吐率最高提升达372%,显著增强了运营商智能计算业务的规模化部署能力。

本次测试在湖北移动真实网络环境中展开,采用vLLM-Ascend推理框架,覆盖MiniMax M2.5、GLM-5.1等主流大语言模型,输入序列长度从8K延伸至190K,全面检验方案在不同规模长文本场景下的适应性与稳定性。

在MiniMax M2.5模型测试中,启用UCM后,首Token生成延迟(TTFT)缩短26%至62%,单NPU卡的Token输出速率(TPS)同步提升:64K序列下TPS提高58%,128K序列下提升78%。

在GLM-5.1模型测试中,加速效果更为突出:TTFT优化幅度达51%至93%,TPS提升范围为56%至372%。其中,64K序列下TPS增长313%,128K序列下实现最高372%的跃升。

测试结果证实,随着上下文长度持续增加,该推理加速方案的性能优势不断凸显,有效突破了传统长序列推理中KV缓存容量受限的关键瓶颈。对于运营商而言,该技术可显著提升智算资源在大模型推理、智能客服、内容生成及行业智能体等长上下文业务中的使用效率,同时缓解高负载推理带来的性能压力。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具