中关村在线

热点资讯

首个AI高考全卷评测结果发布:最高分303 数学全不及格

6月19日,上海人工智能实验室旗下的司南评测体系OpenCompass对7个大模型进行了高考“语数外”全卷能力测试,并发布了首个大模型高考全卷评测结果。

在这场满分420分的三科测试中,阿里通义千问2-72B以303分的成绩拔得头筹,紧随其后的是OpenAI的GPT-4o,获得296分,而上海人工智能实验室的书生·浦语2.0位列第三。这些大模型得分率均超过了70%,展现了强大的实力。

与其他参与者相比,来自法国的大模型初创公司Mistral排名末尾。这场评测的参与模型来源广泛,包括阿里巴巴、零一万物、智谱AI、上海人工智能实验室等。

为了确保公平,实验室特别指出,在评估过程中无法确定闭源模型的更新时间,所以仅将OpenAI的闭源模型GPT-4o作为参考,并没有将其纳入商用闭源模型进行比较。此外,所有参与评测的模型都在高考前(2024年4月-6月)开源,从而有效地避免了“刷题风险”。

从评测结果来看,大模型在语文和英语方面表现较好,但在数学方面则普遍不及格。最高分为75分,由书生·浦语2.0获得,其次是GPT-4o的73分。在语文方面,通义千问表现出色;而在英语方面,则是GPT-4o占据了领先地位。

然而,在数学成绩上反映出大模型在复杂推理能力方面的不足。这项能力对于金融、工业等要求可靠场景落地所需的领域尤为重要,并且也是大模型未来发展的关键方向之一。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具