编程水平哪家强？阿里通义千问Qwen最新推出CodeElo基准测试

薄荷糖的夏天

原创

01-04

近日，阿里通义千问Qwen最新推出了CodeElo基准测试，旨在评估大语言模型（LLM）的编程水平。CodeElo是基于与人类程序员比较的Elo评级系统开发的一项测试。

CodeForces平台以其严格的编程竞赛而闻名，因此其上的题目被选用于CodeElo测试中。通过直接向该平台提交解决方案来确保评估准确性，并解决误报等问题。此外，Elo评级系统反映了人类排名情况，可以有效比较LLM和人类参赛者的表现。

在对30个开源LLM和3个专有LLM进行测试后发现，OpenAI的o1mini模型表现最佳，Elo评分为1578，超过90%的参与者；而在开源模型中，QwQ-32B-Preview以1261分位居榜首。

然而，在解决简单问题时，许多模型仍然表现不佳，通常排名在人类参与者后的20%。分析结果显示，在数学和实现等领域表现良好，但在动态规划和树形算法方面存在差距。

另外值得注意的是，在使用C++编码时，LLM的性能更佳，这与竞技程序员的偏好一致。这些结果表明LLM需要改进的领域之一是动态规划和树形算法。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Pura 70 Ultra(16GB/512GB)

HUAWEI Pura 70 Ultra(16GB/512GB)

2200人评分

78%好评

Redmi K80(12GB/256GB)

Redmi K80(12GB/256GB)

5107人评分

80%好评

vivo X200 Pro(12GB/256GB)

vivo X200 Pro(12GB/256GB)

9208人评分

100%好评

荣耀GT(12GB/256GB)

荣耀GT(12GB/256GB)

2人评分

56%好评

小米15(12GB/256GB)

小米15(12GB/256GB)

3408人评分

79%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具