中关村在线

热点资讯

编程水平哪家强?阿里通义千问Qwen最新推出CodeElo基准测试

近日,阿里通义千问Qwen最新推出了CodeElo基准测试,旨在评估大语言模型(LLM)的编程水平。CodeElo是基于与人类程序员比较的Elo评级系统开发的一项测试。

CodeForces平台以其严格的编程竞赛而闻名,因此其上的题目被选用于CodeElo测试中。通过直接向该平台提交解决方案来确保评估准确性,并解决误报等问题。此外,Elo评级系统反映了人类排名情况,可以有效比较LLM和人类参赛者的表现。

在对30个开源LLM和3个专有LLM进行测试后发现,OpenAI的o1mini模型表现最佳,Elo评分为1578,超过90%的参与者;而在开源模型中,QwQ-32B-Preview以1261分位居榜首。

然而,在解决简单问题时,许多模型仍然表现不佳,通常排名在人类参与者后的20%。分析结果显示,在数学和实现等领域表现良好,但在动态规划和树形算法方面存在差距。

另外值得注意的是,在使用C++编码时,LLM的性能更佳,这与竞技程序员的偏好一致。这些结果表明LLM需要改进的领域之一是动态规划和树形算法。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具