首个AI高考全卷评测结果发布：最高分303 数学全不及格

薄荷糖的夏天

原创

06-19

6月19日，上海人工智能实验室旗下的司南评测体系OpenCompass对7个大模型进行了高考“语数外”全卷能力测试，并发布了首个大模型高考全卷评测结果。

在这场满分420分的三科测试中，阿里通义千问2-72B以303分的成绩拔得头筹，紧随其后的是OpenAI的GPT-4o，获得296分，而上海人工智能实验室的书生·浦语2.0位列第三。这些大模型得分率均超过了70%，展现了强大的实力。

与其他参与者相比，来自法国的大模型初创公司Mistral排名末尾。这场评测的参与模型来源广泛，包括阿里巴巴、零一万物、智谱AI、上海人工智能实验室等。

为了确保公平，实验室特别指出，在评估过程中无法确定闭源模型的更新时间，所以仅将OpenAI的闭源模型GPT-4o作为参考，并没有将其纳入商用闭源模型进行比较。此外，所有参与评测的模型都在高考前（2024年4月-6月）开源，从而有效地避免了“刷题风险”。

从评测结果来看，大模型在语文和英语方面表现较好，但在数学方面则普遍不及格。最高分为75分，由书生·浦语2.0获得，其次是GPT-4o的73分。在语文方面，通义千问表现出色；而在英语方面，则是GPT-4o占据了领先地位。

然而，在数学成绩上反映出大模型在复杂推理能力方面的不足。这项能力对于金融、工业等要求可靠场景落地所需的领域尤为重要，并且也是大模型未来发展的关键方向之一。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 70(12GB/512GB)

HUAWEI Mate 70(12GB/512GB)

509人评分

79%好评

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

141人评分

80%好评

vivo S20(8GB/256GB)

vivo S20(8GB/256GB)

926人评分

100%好评

ROG 游戏手机9 Pro(16GB/512GB)

ROG 游戏手机9 Pro(16GB/512GB)

316人评分

78%好评

OPPO Reno 13(12GB/256GB)

OPPO Reno 13(12GB/256GB)

815人评分

99%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具