2026年4月28日,SuperCLUE团队正式发布DeepSeek V4系列中文大模型的综合测评结果。在本次评估中,DeepSeek-V4-Pro以70.98分的综合得分位居国内同类模型首位,Flash版本以68.82分紧随其后,位列第二,标志着国产开源大模型在性能与实用性方面取得重要进展。
本次测评围绕数学推理、科学推理、代码生成、智能体任务规划、指令遵循及幻觉控制六大核心能力展开。两个版本均展现出显著优势,在全部维度上大幅领先于国内其他同类模型。其中,Pro版本在智能体能力上较上一代V3.2提升超过20分,数学推理能力提升近10分,指令遵循能力提升近12分,幻觉控制效果亦有明显改善;Flash版本则在维持高速推理与低资源消耗的前提下,同步实现了智能体能力与数学推理能力的显著跃升,整体性价比尤为突出。
技术层面,DeepSeek V4系列全面升级注意力机制,所有版本均支持百万级长度上下文处理,并在降低显存占用与计算资源需求方面取得实质性突破,适配国产芯片后运行效率进一步提升。
在应用定位上,Pro版本定价为每百万Token 15元,强调高稳定性与强泛化能力,尤其适用于高精度要求的复杂任务和专业场景,幻觉控制表现更为可靠;Flash版本则主打高效与经济性,API调用价格仅为每百万Token 1.25元,响应速度更快、部署成本更低,更适合高频次、轻量级的日常使用。
测评同时指出,当前模型在代码生成质量与复杂多步指令执行等环节,与国际领先水平尚存一定差距。但整体而言,DeepSeek V4系列凭借均衡全面的能力表现、务实可控的使用成本,已稳居国内第一梯队,成为办公协作、软件开发、内容创作及长文本深度处理等场景中兼具可靠性与实用性的优选方案。

评论
更多评论