去年12月,腾讯云公开了一个秘密。在评论区,有留言说:
小半年过去了,如何让荣耀推理平台性能效率更高、推理速度更快,我们一直在努力——
基于腾讯云TencentOS Server AI底座,我们为荣耀部署大模型提供了TACO-LLM加速模块,提升了推理效率和系统稳定性。
具体来说,主要做了两件事:
一是提升推理平台的整体性能和稳定性。
荣耀的AI功能越来越多,后台往往是多个任务同时在跑,大模型调用频繁、并发量高,对AI底座的要求越来越高。
TACO-LLM加速模块采用「投机采样」技术,简单理解就是让大模型先「大胆预测一波,再快速修正」,跳过「一个字一个字计算推理」的低效流程,大幅提升推理速度,也更好地利用了GPU算力。
看看效果——
在DeepSeek-R1 满血版场景下,相对于荣耀原始线上业务性能,TTFT(首Token延迟)P95的响应时间最高降低6.25倍,吞吐提升2倍,端到端延迟降低 100%。在社区最新版本 sglang 场景下,TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳,系统调度更顺畅。
二是优化意图识别场景的响应速度。
像这些交互类功能,对「即时反馈」要求特别高。
TACO-LLM加速模块针对这类高频调用场景进行了定向优化,在高性能GPU平台上,最大限度压缩了推理耗时。
在荣耀,TACO-LLM 让DeepSeek的推理速度:在 A平台上提升 70%,在B平台上提升 20%。

评论
更多评论