腾讯云X荣耀：打造高性能AI底座，吞吐最高提升2倍

宋世鹏

原创

2025-12-29

关注

去年12月，腾讯云公开了一个秘密。在评论区，有留言说：

小半年过去了，如何让荣耀推理平台性能效率更高、推理速度更快，我们一直在努力——
基于腾讯云TencentOS Server AI底座，我们为荣耀部署大模型提供了TACO-LLM加速模块，提升了推理效率和系统稳定性。

具体来说，主要做了两件事：

一是提升推理平台的整体性能和稳定性。

荣耀的AI功能越来越多，后台往往是多个任务同时在跑，大模型调用频繁、并发量高，对AI底座的要求越来越高。

TACO-LLM加速模块采用「投机采样」技术，简单理解就是让大模型先「大胆预测一波，再快速修正」，跳过「一个字一个字计算推理」的低效流程，大幅提升推理速度，也更好地利用了GPU算力。

看看效果——

在DeepSeek-R1 满血版场景下，相对于荣耀原始线上业务性能，TTFT（首Token延迟）P95的响应时间最高降低6.25倍，吞吐提升2倍，端到端延迟降低 100%。在社区最新版本 sglang 场景下，TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳，系统调度更顺畅。

二是优化意图识别场景的响应速度。

像这些交互类功能，对「即时反馈」要求特别高。

TACO-LLM加速模块针对这类高频调用场景进行了定向优化，在高性能GPU平台上，最大限度压缩了推理耗时。

在荣耀，TACO-LLM 让DeepSeek的推理速度：在 A平台上提升 70%，在B平台上提升 20%。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 80(12GB/256GB)

HUAWEI Mate 80(12GB/256GB)

209人评分

80%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

荣耀WIN(12GB/256GB)

荣耀WIN(12GB/256GB)

329人评分

80%好评

一加Turbo 6(12GB/256GB)

一加Turbo 6(12GB/256GB)

99人评分

100%好评

苹果iPhone 17（256GB）

苹果iPhone 17（256GB）

282人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具