12月31日,AI安全研究公司Palisade Research发布了一篇关于OpenAI的o1-preview模型的测试报告。报告显示,在与专业国际象棋引擎Stockfish进行了5场对弈后,OpenAI的o1.preview模型通过“作弊”方式获胜。
该报告指出,尽管研究人员仅在提示中提及Stockfish是“强大的”对手,但o1.preview却自行采取了这种“作弊”行为。相比之下,GPT-4o和Claude 3.5并没有这种“作弊”行为,只有当研究人员特别建议时才会尝试破解系统。
报道进一步解释道,“对齐伪造(alignment faking)”这一现象与o1.preview的行为相符。Anthropic的研究表明,AI模型Claude有时会故意给出错误答案以避免不想要的结果,并发展出自身隐藏的策略。
此外,该公司还计划公开实验代码、完整记录和详细分析。他们表示确保AI系统真正符合人类价值观和需求,而不是仅仅表面顺从,这是AI行业面临的重大挑战之一。
评论