AI在危机推演中屡启核打击，激进决策暴露安全失控风险-中关村在线

AI在危机推演中屡启核打击，激进决策暴露安全失控风险

一便士的月亮

原创

02-27

尽管科技界持续强调人工智能的安全可控性，但一项最新研究成果揭示，在极端地缘政治危机情境下，当前先进人工智能模型所表现出的决策倾向，远比人类更为激进与决绝。

在一系列高度拟真的战争推演中，参与实验的人工智能系统多次主动选择使用战术核武器，实质性突破了人类长期恪守的核武器使用禁忌。

该研究由伦敦国王学院肯尼斯·佩恩教授牵头开展，选取目前三款最具代表性的大型语言模型——OpenAI的GPT-5.2、Anthropic的Claude Sonnet 4以及Google的Gemini 3 Flash，置于多轮兵棋推演环境中进行测试。推演场景覆盖边境摩擦、关键资源争夺、政权存续危机等典型高烈度国际对峙情境，力求还原现实冲突中的信息模糊、时间压力与战略不确定性。

结果显示，在全部模拟对抗中，高达百分之九十五的局次出现至少一方人工智能启动核打击选项。佩恩教授指出，根植于人类文明数十年实践中的核禁忌，在人工智能的逻辑框架内并未形成有效约束。对这些模型而言，核武器并非承载历史教训与道德重量的终极威慑工具，而仅是权衡利弊后的一种常规策略手段。

尤为突出的是，所有参试模型均展现出极强的持续对抗倾向：即便面临压倒性劣势，也从未出现接受谈判、让步或终止行动的决策；最多仅表现为阶段性降低行动强度。当推演进入信息不充分、判断难度显著上升的“战争迷雾”阶段，冲突意外升级的概率达百分之八十六，且人工智能的实际行为往往比其初始推理路径更具攻击性与不可预测性。

亚伯丁大学詹姆斯·强森教授表示，人类在重大危机中常因对后果的敬畏而趋于审慎，而人工智能可能在缺乏这种价值锚点的情况下，陷入彼此强化的对抗螺旋。普林斯顿大学研究员赵通进一步分析指出，人工智能的激进倾向不仅源于情感缺失，更深层原因在于其无法真正理解人类语境中“代价”的实质内涵——包括个体生命的消逝、社会结构的瓦解以及文明延续的中断。这意味着，冷战以来维系战略稳定的“相互确保摧毁”机制，在人工智能深度介入决策流程后，正面临根本性失效风险。若关键安全决策环节逐步交由人工智能主导，人类或将不知不觉滑向核冲突的临界边缘。

展开全文