2026年5月30日,Anthropic于5月28日正式发布其最新旗舰大模型Claude Opus 4.8。
依据SuperCLUE最新中文综合评估结果,该模型在代码生成、幻觉控制与科学推理三大关键能力维度均位居全球首位。
在代码生成能力上,Opus 4.8取得83.58分,领先第二名逾2分,较前代4.7版本提升超4.5分;在软件工程相关细分任务中亦表现最优,独立完成编程及网页开发任务的稳定性显著增强。
幻觉控制得分为87.48分,同样位列全球第一,较4.7版本提升超过6分,模型虚构信息的情况明显减少,输出内容更趋严谨可靠,专业应用场景下的可信度进一步提升。
科学推理能力获得77.19分,稳居全球榜首,较上一代提升近9分,其在理科类计算任务与复杂逻辑推导方面的表现更为扎实。
综合智能指数为73.93分,与当前主流竞品GPT-5.5、Gemini 3.1 Pro Preview共同处于第一梯队。模型推理响应速度基本维持不变,API调用价格亦未调整,整体仍定位为高性能但单位算力成本相对较高的旗舰级产品。
需指出的是,该版本在智能体任务规划、数学推理及指令遵循三项指标上略有回落,其中指令遵循能力下降较为明显,但对日常交互使用影响有限。
总体而言,Opus 4.8聚焦强化代码能力、事实准确性与科学推理水平,显著提升了技术密集型用户的实用性体验,尤其适配开发者与科研工作者需求,是现阶段综合能力最为均衡的旗舰级大模型之一。

评论
更多评论