中关村在线

热点资讯

Anthropic发布Claude Opus 4.8:代码、幻觉控制与科学推理全球第一

2026年5月30日,Anthropic于5月28日正式发布其最新旗舰大模型Claude Opus 4.8。

依据SuperCLUE最新中文综合评估结果,该模型在代码生成、幻觉控制与科学推理三大关键能力维度均位居全球首位。

在代码生成能力上,Opus 4.8取得83.58分,领先第二名逾2分,较前代4.7版本提升超4.5分;在软件工程相关细分任务中亦表现最优,独立完成编程及网页开发任务的稳定性显著增强。

幻觉控制得分为87.48分,同样位列全球第一,较4.7版本提升超过6分,模型虚构信息的情况明显减少,输出内容更趋严谨可靠,专业应用场景下的可信度进一步提升。

科学推理能力获得77.19分,稳居全球榜首,较上一代提升近9分,其在理科类计算任务与复杂逻辑推导方面的表现更为扎实。

综合智能指数为73.93分,与当前主流竞品GPT-5.5、Gemini 3.1 Pro Preview共同处于第一梯队。模型推理响应速度基本维持不变,API调用价格亦未调整,整体仍定位为高性能但单位算力成本相对较高的旗舰级产品。

需指出的是,该版本在智能体任务规划、数学推理及指令遵循三项指标上略有回落,其中指令遵循能力下降较为明显,但对日常交互使用影响有限。

总体而言,Opus 4.8聚焦强化代码能力、事实准确性与科学推理水平,显著提升了技术密集型用户的实用性体验,尤其适配开发者与科研工作者需求,是现阶段综合能力最为均衡的旗舰级大模型之一。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具