中关村在线

热点资讯

DeepSeek V4临近发布:Mega MoE架构加持,参数或达1.6万亿

距离四月下旬已不足数日,DeepSeek V4大模型的发布节奏持续引发广泛关注。

昨日,该公司研发团队悄然更新了DeepGEMM算子库,这一动作被业内迅速解读为V4临近发布的信号之一。

为避免外界过度联想,团队在更新后同步发布说明,明确指出本次调整仅聚焦于DeepGEMM底层算子的开发演进,与内部大模型版本的发布节奏无直接关联。换言之,此次更新并非V4即将面世的前置预告。

但声明反而强化了市场对V4的期待。原因在于,DeepGEMM此次升级内容扎实且指向清晰:不仅新增对FP8_FP4混合精度计算的支持,还深度优化了对NVIDIA Blackwell架构的适配能力;更关键的是,在模型架构层面引入两项重要创新——Mega MoE与HyperConnection。其中,Mega MoE被视为MoE技术路径的一次实质性跃迁。

据多方技术分析,V4有望将单次前向推理中激活的专家数量从V3的256个显著提升至数千量级。这一变化既可大幅增强模型表达能力与推理质量,又通过精巧的路由机制控制计算开销,兼顾性能提升与资源效率。

此外,基于此次算子库更新所透露的参数配置线索,业界推测V4单层MoE结构参数量约为253.7亿。若沿用60层结构,整体参数规模或达1.6万亿;即便采用48层设计,总参数量也接近1.25万亿。相较此前流传的1万亿参数预期,1.6万亿意味着提升幅度达六成,而1.25万亿亦较V3的6700亿实现近一倍增长。

无论最终参数规模落在哪个区间,结合数千专家动态激活能力与Mega MoE架构的协同增益,V4都极可能成为MoE范式发展进程中具有标志性意义的新一代大模型。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具