Qwen3.7-Max以1541分登顶国产编程大模型榜首，全球排名第二-中关村在线

Qwen3.7-Max以1541分登顶国产编程大模型榜首，全球排名第二

牛奶秋刀鱼

原创

05-26

二零二六年五月二十六日凌晨，全球权威第三方编程能力评测榜单Code Arena正式公布最新排名。阿里最新发布的旗舰大模型Qwen3.7-Max以一五四一分的成绩位列全球第二，在全部参评大模型中仅次于Claude系列，超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1及Kimi-K2.6等国际主流模型，标志着千问3.7正式迈入全球编程大模型第一梯队。

编程能力已成为衡量大模型综合智能水平的关键维度。Code Arena由国际知名第三方大模型盲测平台LMArena发起，是当前最具影响力的编程能力评估体系之一。与传统代码基准测试不同，该榜单不依赖静态代码片段生成或标准算法题求解，而是由一线开发者实际命题，要求模型从零开始构建功能完整、可交互运行的Web应用程序；所有产出内容经匿名处理后，由真实用户进行两两对比投票，最终依据大规模盲测反馈生成综合排名。因其高度贴近工程实践、全程脱离厂商干预，Code Arena被广泛视为全球公信力最强的AI编程能力评测之一。

在覆盖全球开发者的多轮盲测中，Qwen3.7-Max编程表现稳居前四，成功打破此前长期由Claude-Opus-4.7与Claude-Opus-4.6共同主导的前四格局。该模型亦成为当前榜单中唯一得分突破一五四零分的国产大模型。

作为面向智能体场景深度优化的旗舰版本，Qwen3.7-Max在编程理解与生成、智能体协同、长程任务执行等核心维度实现系统性跃升。它可在数小时内独立完成原本需专业团队耗时两周的复杂项目端到端交付，显著提升办公自动化效率与企业级生产力。在极端任务场景下，模型可持续运行三十五小时，完成超一千次工具调用，支撑高复杂度长程任务，并具备自我编程、持续优化芯片内核的能力。

展开全文