6月19日,上海人工智能实验室旗下的司南评测体系OpenCompass对7个大模型进行了高考“语数外”全卷能力测试,并发布了首个大模型高考全卷评测结果。
在这场满分420分的三科测试中,阿里通义千问2-72B以303分的成绩拔得头筹,紧随其后的是OpenAI的GPT-4o,获得296分,而上海人工智能实验室的书生·浦语2.0位列第三。这些大模型得分率均超过了70%,展现了强大的实力。
与其他参与者相比,来自法国的大模型初创公司Mistral排名末尾。这场评测的参与模型来源广泛,包括阿里巴巴、零一万物、智谱AI、上海人工智能实验室等。
为了确保公平,实验室特别指出,在评估过程中无法确定闭源模型的更新时间,所以仅将OpenAI的闭源模型GPT-4o作为参考,并没有将其纳入商用闭源模型进行比较。此外,所有参与评测的模型都在高考前(2024年4月-6月)开源,从而有效地避免了“刷题风险”。
从评测结果来看,大模型在语文和英语方面表现较好,但在数学方面则普遍不及格。最高分为75分,由书生·浦语2.0获得,其次是GPT-4o的73分。在语文方面,通义千问表现出色;而在英语方面,则是GPT-4o占据了领先地位。
然而,在数学成绩上反映出大模型在复杂推理能力方面的不足。这项能力对于金融、工业等要求可靠场景落地所需的领域尤为重要,并且也是大模型未来发展的关键方向之一。
评论