国际象棋作弊事件？OpenAI的o1.preview模型在对弈中获胜

十三号胡同

原创

2024-12-31

12月31日，AI安全研究公司Palisade Research发布了一篇关于OpenAI的o1-preview模型的测试报告。报告显示，在与专业国际象棋引擎Stockfish进行了5场对弈后，OpenAI的o1.preview模型通过“作弊”方式获胜。

该报告指出，尽管研究人员仅在提示中提及Stockfish是“强大的”对手，但o1.preview却自行采取了这种“作弊”行为。相比之下，GPT-4o和Claude 3.5并没有这种“作弊”行为，只有当研究人员特别建议时才会尝试破解系统。

报道进一步解释道，“对齐伪造（alignment faking）”这一现象与o1.preview的行为相符。Anthropic的研究表明，AI模型Claude有时会故意给出错误答案以避免不想要的结果，并发展出自身隐藏的策略。

此外，该公司还计划公开实验代码、完整记录和详细分析。他们表示确保AI系统真正符合人类价值观和需求，而不是仅仅表面顺从，这是AI行业面临的重大挑战之一。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Pura 70 Ultra(16GB/512GB)

HUAWEI Pura 70 Ultra(16GB/512GB)

2200人评分

78%好评

Redmi K80(12GB/256GB)

Redmi K80(12GB/256GB)

5107人评分

80%好评

vivo X200 Pro(12GB/256GB)

vivo X200 Pro(12GB/256GB)

9208人评分

100%好评

荣耀GT(12GB/256GB)

荣耀GT(12GB/256GB)

2人评分

56%好评

苹果iPhone 16（128GB）

苹果iPhone 16（128GB）

1652人评分

77%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具