近日,阿里通义千问Qwen最新推出了CodeElo基准测试,旨在评估大语言模型(LLM)的编程水平。CodeElo是基于与人类程序员比较的Elo评级系统开发的一项测试。
CodeForces平台以其严格的编程竞赛而闻名,因此其上的题目被选用于CodeElo测试中。通过直接向该平台提交解决方案来确保评估准确性,并解决误报等问题。此外,Elo评级系统反映了人类排名情况,可以有效比较LLM和人类参赛者的表现。
在对30个开源LLM和3个专有LLM进行测试后发现,OpenAI的o1mini模型表现最佳,Elo评分为1578,超过90%的参与者;而在开源模型中,QwQ-32B-Preview以1261分位居榜首。
然而,在解决简单问题时,许多模型仍然表现不佳,通常排名在人类参与者后的20%。分析结果显示,在数学和实现等领域表现良好,但在动态规划和树形算法方面存在差距。
另外值得注意的是,在使用C++编码时,LLM的性能更佳,这与竞技程序员的偏好一致。这些结果表明LLM需要改进的领域之一是动态规划和树形算法。
评论