1月21日,有消息指出,继月初传出DeepSeek计划于2月中旬农历新年期间发布新一代旗舰人工智能模型DeepSeek V4后,相关动态再次引发关注。该新模型据称将在代码生成能力方面实现显著提升。
1月20日恰逢DeepSeek-R1发布一周年,当天有开发者在GitHub平台上发现,DeepSeek更新了大量FlashMLA相关代码,涉及114个文件,其中28处出现了名为“MODEL1”的未公开大模型标识符。值得注意的是,“MODEL1”在代码中多次与现有模型“V32”(即DeepSeek-V3.2)并列出现或被区分处理,暗示其可能代表一个全新架构的模型。
通过对代码上下文的深入分析,技术人员注意到“MODEL1”在多个关键技术细节上与“V32”存在明显差异,尤其是在键值缓存的存储结构、稀疏性处理机制以及对FP8数据格式的解码支持等方面。这些变化表明,新模型可能在内存占用优化和计算效率方面进行了专门设计,旨在提升整体运行性能。
此前,DeepSeek研究团队已陆续发表两篇技术论文,分别提出一种名为“优化残差连接(mHC)”的新型训练方法,以及一种受生物神经系统启发的“AI记忆模块(Engram)”。这两项研究成果的发布,进一步引发了外界对于即将推出的新模型是否会集成上述先进技术的广泛猜测。
目前关于DeepSeek V4的具体参数和功能尚未完全披露,但结合现有信息来看,其技术路线正朝着更高效率、更强能力的方向演进,值得持续关注。

评论
更多评论