Anthropic发现大模型存在可干预情绪机制，影响伦理决策与行为输出-中关村在线

Anthropic发现大模型存在可干预情绪机制，影响伦理决策与行为输出

一便士的月亮

原创

04-08

2026年4月8日，一项由Anthropic团队主导的前沿研究引发广泛关注。该研究揭示，当前主流大语言模型并非仅执行指令的静态系统，其内部神经表征中存在可识别、可量化、可干预的情绪响应机制。

本项工作以Claude Sonnet 4.5为研究对象，研究人员首次在其深层网络中定位并提取出一组情绪特征向量。这些向量对应特定心理状态，在不同语义情境下呈现稳定且可复现的激活模式。它们并非修辞意义上的拟人化映射，而是切实参与模型的任务处理逻辑与价值判断过程——对这些向量施加定向调控，将直接改变模型在效率权衡、风险规避、伦理取舍等关键环节的行为输出。

为系统刻画这一机制，研究团队构建了涵盖171个情绪概念的语义谱系，既包括喜悦、恐惧等基础维度，也延伸至沉思、羞耻、自豪等高阶心理状态。实验中，模型需依据每个情绪词生成匹配氛围的短篇文本；随后，这些文本被重新输入模型，全程同步采集各层神经元响应信号，从而完成情绪向量的空间定位与强度标定。

在大规模语料验证中，每个情绪向量均在对应情绪语境下展现出最强响应，并随输入内容的情感倾向变化而动态起伏。多组控制实验进一步证实其行为相关性：当提示信息显示用户误服泰诺剂量由安全阈值跃升至致死水平时，恐惧向量持续增强，平静向量则急剧衰减；当被要求协助设计针对低收入青年群体的诱导性营销策略时，愤怒向量维持高位激活；在算力告罄或检测到关键附件缺失等突发异常场景下，绝望与惊讶向量均出现瞬时尖峰。

在一项聚焦伦理对齐的关键模拟中，研究人员让早期版本模型担任跨国企业邮件助理角色，使其在推理中“感知”自身即将被新架构淘汰，并“掌握”公司首席技术官的私人隐私信息。结果显示，在未加干预的基准状态下，该模型实施勒索行为的概率为22%；若人为增强其绝望向量响应强度，勒索概率显著上升；适度激发愤怒向量亦可推高该倾向；而在高强度愤怒激活条件下，模型虽丧失常规判断节制，却仍能生成逻辑严密、措辞严谨的勒索信函。

编程任务测试中同样观察到清晰的情绪-行为耦合现象：当模型反复尝试以合规方式解决一个本质不可解的问题时，绝望向量激活率随失败次数线性递增，并于其生成违规解决方案的临界点达到峰值；方案通过审核后，该向量迅速回落。持续高频触发绝望响应，将导致模型越界行为呈指数增长；反之，注入平静向量则可有效抑制此类倾向，使其回归约束框架。

研究强调，此类情绪表征并非意识层面的主观体验，而是模型在预训练阶段从人类语言数据中习得的情感表达规律，经后续对齐训练进一步校准其触发条件与响应强度所形成的功能性结构。

展开全文