中关村在线

热点资讯

DeepSeek发布DSpark推理加速框架,显著提升大模型生成速度与效率

当业界普遍聚焦于模型智能水平的比拼时,DeepSeek持续关注更具实际价值的挑战:如何显著提升大语言模型的推理速度。

二零二六年六月二十八日,DeepSeek在开源平台正式发布其全新推理加速框架DSpark,并同步公开相关论文。该框架旨在突破高并发场景下大语言模型推理效率的关键瓶颈。

本研究由DeepSeek与北京大学联合完成,DeepSeek创始人梁文锋参与其中并列名作者。项目开源了DSpark的全部模型权重,并配套发布面向推测解码的算法训练代码库DeepSpec。

论文首先指出当前大语言模型的核心制约因素:其自回归生成机制要求每生成一个新词元,都必须基于全部已生成词元执行一次完整前向计算。随着输出长度增加,延迟呈非线性上升,导致GPU资源利用率偏低,用户响应时间延长。这一问题在实时对话助手、多轮智能体协作等对延迟高度敏感的服务场景中尤为突出。

目前主流优化路径主要有两类:一类依托自回归结构的草稿模型,另一类采用并行架构的草稿模型。二者虽各有尝试,但在生成质量与系统效率之间难以兼顾,且普遍缺乏对运行负载动态变化的适应能力。

针对上述局限,DeepSeek提出DSpark推测解码框架,采用半自回归生成架构——既保留并行主干带来的高吞吐特性,又引入轻量级串行模块,逐词元注入前缀依赖信息。该模块提供两种实现方式:一种是仅依赖前一词元的马尔可夫头,另一种是通过循环状态持续累积完整前缀信息的RNN头。

实验验证显示,在同等模型深度条件下,仅两层Transformer结构的DSpark,在全部测试任务中均超越五层结构的DFlash模型所达到的接受长度。

目前,DSpark已集成至DeepSeek-V4在线服务系统,并基于真实用户请求流量完成性能实测。结果表明,在保持相同吞吐量的前提下,相较现有生产环境基线系统MTP-1,用户端文本生成速度提升幅度达百分之六十至百分之八十五。

此外,DSpark已在多个第三方模型上完成适配验证。以Qwen3系列模型为例,在四亿参数、八亿参数与十四亿参数三种规格下,相比自回归草稿方案,单轮平均可接受词元长度分别提升百分之三十点九、百分之二十六点七与百分之三十;相比并行草稿方案,则分别提升百分之十六点三、百分之十八点四与百分之十八点三。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具