2026年3月30日,中文大模型权威基准测评SuperCLUE公布最新一期评测结果,共纳入22款国内外主流大语言模型参与评估。
字节跳动研发的豆包模型Doubao-Seed-2.0-pro-260215(high)以71.53分位居国内榜首,并成功进入全球第一梯队。小米集团推出的MiMo-V2系列两款模型均入围榜单。
本次测评涵盖数学推理、科学推理、代码生成等六大核心能力维度,系统性考察各模型在复杂任务中的综合表现。海外闭源模型整体仍保持领先优势,Claude-Opus-4.6(max)、Gemini-3.1-Pro-Preview(high)与GPT-5.4(xhigh)分列总榜前三。
豆包模型总分紧随GPT-5.4之后,差距仅为0.95分,展现出全面而迅速的追赶态势;尤其在智能体任务规划这一高阶能力维度上,其表现已超越部分国际头部模型,稳居全球前五。
小米旗下MiMo-V2-Pro获得60.67分,在闭源模型中位居前列,其中数学推理单项得分高达84.03分;开源版本MiMo-V2-Flash得分为49.97分,虽整体排名相对靠后,但在代码生成等特定任务中展现出良好适配性与应用潜力。
值得关注的是,国产模型整体表现稳健,开源赛道优势尤为显著。Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等国产开源模型包揽开源组前三名,大幅领先于海外同类开源模型。

评论
更多评论