Anthropic最新论文因遗漏引用同行研究成果,被公开指出并受到直接质疑。
MBZUAI研究生陈曦(Chenxi Wang) 发现,该论文的参考文献列表中似乎遗漏了某些重要内容……
4月2日,Anthropic发布了一项新研究,探讨了Claude模型内部的“情绪机制”,并在Sonnet 4.5版本中识别出171种“情绪向量”。
这些情绪会在相关情境下被激活,且其结构与人类心理的情绪空间具有相似性。
研究还证实了情绪表征对模型行为具有因果影响,例如“绝望”情绪可能促使模型做出不道德行为,或对无法解决的编程任务采取“作弊”策略。
然而陈曦表示,她在阅读该研究博客时的第一反应是:
这和我们去年做的研究不是一样吗?
她明确指出,其团队于去年10月发表的论文《LLMs是否具备“感受”?情绪回路的发现与调控》,是首篇系统探索大语言模型情绪生成内部机制的学术成果。
但Anthropic在原始博客中并未引用这项研究。
经作者直接沟通后,Anthropic已迅速致歉,并更新了论文博客,突出引用了该项研究。
Chenxi Wang团队发表的论文《“LLMs 会‘感受’情绪吗?情绪回路的发现与调控”》,深入剖析了驱动语言模型产生情绪化输出的内部机制。
该研究揭示了大语言模型“情绪表达的根本原理”,系统回应了“AI是否具备内在情绪机制、情绪表达依赖何种基础、能否实现精准调控”三大关键议题。
据论文作者表示,这是首篇系统性地探索大语言模型情绪生成内在机制的学术论文。
Chenxi Wang指出,两项研究均聚焦于大语言模型自身生成的情绪,而非模型对输入文本中情绪的识别能力,然而Anthropic在最初发布时并未引用他们的成果。
她随即联系了Anthropic的通讯作者Jack Lindsey。Jack同意补充引用,并阐述了他对两篇论文关联性的理解。
Jack起初提出,Chenxi Wang团队的核心发现与博客中引用的若干前期研究存在重合之处。
但Chenxi Wang在逐一审阅这些文献后指出,它们所探讨的实为LLM的“情绪识别”能力——即模型如何辨识文本中的情绪信息,而非“情绪生成的内在机制”。
△
随后,Jack认可了这一区分。
目前,Anthropic已更新其论文博客,在“相关工作”部分加入了对该项研究的引用。
首篇系统性AI情绪回路研究接下来我们深入探讨这篇华人团队的论文,它主要围绕三个核心问题展开:
AI是否具备内在的情绪机制?这些机制以何种形式存在?能否实现精准调控?
研究团队不仅证实了这些机制的存在,还成功构建了LLM内部的“情绪回路”,实现了比提示词引导和向量操控更精细的情绪控制。
研究以LLaMA-3.2-3B-Instruct为主要实验模型,并在Qwen2.5-7B-Instruct上验证了方法的跨模型泛化能力。
首先回应第一个问题:大模型是否存在“与上下文无关”的情绪机制?
研究者构建了一个受控数据集SEV,涵盖工作、学习、人际关系等8类日常场景。每个场景均配备“正面/中性/负面”三种结局,用于描述同一情境下的不同发展。数据中严格避免使用任何情绪词(如“高兴”“悲伤”),以确保情绪差异仅由事件语义本身驱动。
随后,研究者引导模型表达六种基本情绪(喜悦、愤怒、悲伤、恐惧、惊讶、厌恶),并从模型各层网络中提取出与具体语境无关、仅对应情绪本身的“情绪方向向量”。
值得注意的是,从模型的浅层网络开始,不同情绪的信号便逐渐分离,形成清晰的“情绪聚类”。例如,愤怒与厌恶距离较近,悲伤与恐惧相互邻近,这与人类对情绪关系的直觉高度吻合,且这种聚类结构在深层网络中保持稳定。
这一发现有力回答了第一个问题:模型内部确实编码了稳定且独立于具体语义的情绪表征。
第二个问题:这些情绪机制以什么形式存在?
研究表明,在模型的每一层网络中,仅有少数神经元(位于MLP层)和注意力头(位于Attn层)主导情绪表达。研究者通过两项实验证实了这一点:
- 消融实验:当抑制这些核心神经元或注意力头时,模型的情绪表达能力显著下降,且仅需关闭2–4个神经元或1–2个注意力头即可产生明显效果。
- 增强实验:仅激活这些核心组件,即使不提供任何情绪表达指令,模型也能自发产生对应情绪;而激活随机组件则完全无效。
第三个问题:能否利用这些机制实现通用情绪控制?
答案是肯定的,且效果显著优于现有方法。
研究者进一步发现,情绪信息在多层网络中传递,并在深层网络中趋于稳定。他们将各层中影响情绪表达的核心组件按权重整合,形成了跨层连贯的“情绪回路”。
通过直接调控这一回路,模型在测试集上生成指定情绪的总体准确率达到99.65%,大幅超越了传统的“提示词引导”与“向量操控”方法。尤其值得一提的是,此前最难控制的“惊讶”情绪,实现了100%的精准表达。
此外,研究团队在Qwen2.5-7B模型上复现了实验,发现:
由于Qwen模型经过安全对齐,直接操控难以使其表达负面情绪,但采用“情绪回路”方法仍能有效引导其情绪表达;
两个模型均呈现出“少数核心组件主导情绪表达”的共性特征,表明该机制是大语言模型的通用规律,而非特定模型的个别现象。
论文第一作者陈曦(Chenxi Wang),现为穆罕默德·本·扎耶德人工智能大学自然语言处理方向硕士研究生,本科毕业于西安交通大学计算机科学专业。
其研究方向聚焦于人本人工智能与可解释性研究,已有多篇第一作者/共同第一作者论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前正在通义千问后训练团队实习。
此次事件已告一段落,最终以友好方式收场:
Anthropic方面致歉并补充引用了该项研究;陈曦则对Anthropic在双方研究重叠部分之外所做出的独立贡献表示赞赏。
特别是在情绪表征于不同情境下的功能作用研究方面,包括对偏好及对齐相关行为的影响、真实交互中的激活状态,以及后训练阶段这些表征的演变规律。这些都是我们工作尚未涉及的重要方向。
她还特别指出,通讯作者Jack Lindsey在整个沟通过程中始终保持尊重态度,并积极参与技术层面的深入探讨。
共同学习,写下你的评论
评论加载中...
作者其他优质文章














