DeepSeek V4临近发布：Mega MoE架构加持，参数或达1.6万亿

拿铁不加冰

原创

04-18

距离四月下旬已不足数日，DeepSeek V4大模型的发布节奏持续引发广泛关注。

昨日，该公司研发团队悄然更新了DeepGEMM算子库，这一动作被业内迅速解读为V4临近发布的信号之一。

为避免外界过度联想，团队在更新后同步发布说明，明确指出本次调整仅聚焦于DeepGEMM底层算子的开发演进，与内部大模型版本的发布节奏无直接关联。换言之，此次更新并非V4即将面世的前置预告。

但声明反而强化了市场对V4的期待。原因在于，DeepGEMM此次升级内容扎实且指向清晰：不仅新增对FP8_FP4混合精度计算的支持，还深度优化了对NVIDIA Blackwell架构的适配能力；更关键的是，在模型架构层面引入两项重要创新——Mega MoE与HyperConnection。其中，Mega MoE被视为MoE技术路径的一次实质性跃迁。

据多方技术分析，V4有望将单次前向推理中激活的专家数量从V3的256个显著提升至数千量级。这一变化既可大幅增强模型表达能力与推理质量，又通过精巧的路由机制控制计算开销，兼顾性能提升与资源效率。

此外，基于此次算子库更新所透露的参数配置线索，业界推测V4单层MoE结构参数量约为253.7亿。若沿用60层结构，整体参数规模或达1.6万亿；即便采用48层设计，总参数量也接近1.25万亿。相较此前流传的1万亿参数预期，1.6万亿意味着提升幅度达六成，而1.25万亿亦较V3的6700亿实现近一倍增长。

无论最终参数规模落在哪个区间，结合数千专家动态激活能力与Mega MoE架构的协同增益，V4都极可能成为MoE范式发展进程中具有标志性意义的新一代大模型。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X300 Ultra(12GB/256GB)

vivo X300 Ultra(12GB/256GB)

1人评分

96%好评

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

177人评分

80%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

一加15T(12GB/256GB)

一加15T(12GB/256GB)

361人评分

100%好评

Redmi Turbo 5 MAX(12GB/256GB)

Redmi Turbo 5 MAX(12GB/256GB)

349人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具