DeepSeek V4参数与架构细节曝光：1.6万亿参数、100万上下文引全球关注

散落的星星沙

原创

04-24

距离四月结束仅剩一周，各大人工智能模型研发机构近期密集推出新版本或重要升级，其中DeepSeek V4的发布备受关注，迟迟未现身令业界期待已久。

公众最关心的，是此次更新能否通过突破性技术，推动国产大模型跻身全球第一梯队——即便未必登顶，至少应具备与国际领先闭源模型同台竞技的实力。

近日，普林斯顿大学博士生Yifan Zhang在社交平台公开了DeepSeek V4的技术参数。根据披露，该模型分为两个版本：完整版参数量达1.6万亿，Lite版为2850亿，与此前多方流传的信息基本一致。

在核心架构方面，模型采用DSA2注意力机制，整合了DeepSeek V3及R1中已验证的DSA设计，并引入今年初论文提出的NSA稀疏注意力方案。混合专家系统（MoE）启用Mega内核结构，每层配置384个专家，每次推理激活其中6个。残差连接部分沿用此前论文提出的Hyper-Connections方案，该设计亦见于近期DeepGemm优化更新中。

训练与后端优化层面同样引入多项新技术：优化器选用Muon；强化学习阶段采用GRPO算法，并辅以KL散度校正；预训练上下文长度由此前的32K大幅提升至100万token。

值得注意的是，尽管DeepSeek过往版本更新中曾多次暗示将拓展视觉能力，迈向多模态方向，但此次披露内容仍将其明确定义为纯文本大模型，这一设定略显意外。

整体来看，该技术信息覆盖面广，但来源非官方研发团队成员，部分内容疑似整合自网络已有线索与零散公开资料，虽多数细节与此前行业观察和官方释放的信号相吻合，尚无法独立验证其全部准确性。

自DeepSeek R1发布已过去十五个月，距V3.2最终版也已逾五个月。在此期间，主流大模型厂商普遍完成至少一次大版本迭代及数次小版本优化。对DeepSeek而言，V4的延迟发布无形中加剧了竞争压力——发布时间越靠后，市场期待越高，容错空间越小。

目前，业界普遍期盼能在下周迎来DeepSeek V4完整版与Lite版的正式上线。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo S60（12GB/256GB）

vivo S60（12GB/256GB）

1人评分

97%好评

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

179人评分

80%好评

荣耀600 Pro(12GB/256GB)

荣耀600 Pro(12GB/256GB)

OPPO Reno15(12GB/256GB)

OPPO Reno15(12GB/256GB)

327人评分

100%好评

小米17 Ultra(12GB/512GB)

小米17 Ultra(12GB/512GB)

92人评分

79%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具