中关村在线

云计算

腾讯云X荣耀:打造高性能AI底座,吞吐最高提升2倍

去年12月,腾讯云公开了一个秘密。在评论区,有留言说:

小半年过去了,如何让荣耀推理平台性能效率更高、推理速度更快,我们一直在努力——
基于腾讯云TencentOS Server AI底座,我们为荣耀部署大模型提供了TACO-LLM加速模块,提升了推理效率和系统稳定性。

具体来说,主要做了两件事:

一是提升推理平台的整体性能和稳定性。

荣耀的AI功能越来越多,后台往往是多个任务同时在跑,大模型调用频繁、并发量高,对AI底座的要求越来越高。

TACO-LLM加速模块采用「投机采样」技术,简单理解就是让大模型先「大胆预测一波,再快速修正」,跳过「一个字一个字计算推理」的低效流程,大幅提升推理速度,也更好地利用了GPU算力。

看看效果——

在DeepSeek-R1 满血版场景下,相对于荣耀原始线上业务性能,TTFT(首Token延迟)P95的响应时间最高降低6.25倍,吞吐提升2倍,端到端延迟降低 100%。在社区最新版本 sglang 场景下,TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳,系统调度更顺畅。

二是优化意图识别场景的响应速度。

像这些交互类功能,对「即时反馈」要求特别高。

TACO-LLM加速模块针对这类高频调用场景进行了定向优化,在高性能GPU平台上,最大限度压缩了推理耗时。

在荣耀,TACO-LLM 让DeepSeek的推理速度:在 A平台上提升 70%,在B平台上提升 20%。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具