DeepSeek今日正式发布并开源新版本模型DeepSeek-V3.1。此次更新在多个关键方面进行了显著优化。
新版本采用了混合推理架构,支持用户在思考模式与非思考模式之间自由切换。同时,模型的上下文处理能力进一步提升,当前可支持长达128k的文本生成与处理。
在推理效率方面,DeepSeek-V3.1相较之前的DeepSeek-R1-0528在思考模式下响应速度更快,能够在更短时间内给出高质量的答案。此外,模型在智能代理任务中的表现也有明显增强,通过Post-Training阶段的优化,其工具调用与任务执行能力得到显著提升。
目前,官方网页、应用程序、小程序及API开放平台均已同步升级至新版本。用户在交互界面中点击“深度思考”按钮即可切换模型的推理模式。
在API接入方面,调用方式维持原有结构不变,并新增了对Anthropic API格式的支持,方便开发者快速集成至Claude Code框架。
根据官方披露的测试数据,在代码修复评估SWE以及终端复杂任务测试(Terminal-Bench)中,DeepSeek-V3.1的表现相较此前版本有显著提升。在多项搜索评估中,新版本在多步推理任务(browsecomp)和跨学科专家级挑战任务(HLE)中均大幅优于R1-0528。
实验还显示,经过思维链压缩训练后,V3.1-Think版本在输出token数量减少20%至50%的情况下,任务表现仍与R1-0528基本持平。同时,在非思考模式下,输出长度也得到了有效控制,在输出更短文本的同时,仍保持与前版模型DeepSeek-V3-0324相当的性能。
此外,V3.1的Base模型在V3基础上进行了扩展训练,新增约8400亿token的数据训练。目前,Base模型及后训练模型均已在Huggingface与魔搭平台开放开源。
从北京时间2025年9月6日凌晨开始,DeepSeek开放平台还将对API调用价格作出相应调整。

评论
更多评论