1月10日,有消息称,人工智能公司DeepSeek计划在未来数周内推出其新一代旗舰级大语言模型。该模型为去年发布的DeepSeek V3的升级版本,内部代号为V4,重点提升了代码生成与编程相关能力。
据知情人士透露,DeepSeek V4在内部初步测试中表现出色,尤其在编程任务方面超越了当前主流模型,包括Claude和ChatGPT等。此前,该公司于去年12月推出的DeepSeek V3.2已显著增强了智能体(Agent)功能,并引入更深层次的推理机制,在部分基准评测中表现优于GPT-5和Gemini 3.0 Pro等先进模型。
在技术架构方面,DeepSeek于2023年12月31日发布了一项研究成果,提出一种名为mHC(流形约束超连接)的新型神经网络结构。该方法旨在应对传统超连接在大规模模型训练过程中存在的稳定性挑战,同时保留其带来的性能优势,为未来基础模型的发展提供了新的技术路径。

评论
更多评论