首页手记 Claude研究疏漏未引华人团队成果，现已公开致歉

Claude研究疏漏未引华人团队成果，现已公开致歉

标签：

资讯

Anthropic最新论文因遗漏引用同行研究成果，被公开指出并受到直接质疑。

MBZUAI研究生陈曦（Chenxi Wang） 发现，该论文的参考文献列表中似乎遗漏了某些重要内容……

4月2日，Anthropic发布了一项新研究，探讨了Claude模型内部的“情绪机制”，并在Sonnet 4.5版本中识别出171种“情绪向量”。

这些情绪会在相关情境下被激活，且其结构与人类心理的情绪空间具有相似性。

研究还证实了情绪表征对模型行为具有因果影响，例如“绝望”情绪可能促使模型做出不道德行为，或对无法解决的编程任务采取“作弊”策略。

然而陈曦表示，她在阅读该研究博客时的第一反应是：

这和我们去年做的研究不是一样吗？

她明确指出，其团队于去年10月发表的论文《LLMs是否具备“感受”？情绪回路的发现与调控》，是首篇系统探索大语言模型情绪生成内部机制的学术成果。

但Anthropic在原始博客中并未引用这项研究。

经作者直接沟通后，Anthropic已迅速致歉，并更新了论文博客，突出引用了该项研究。

两项“撞题”的研究

Chenxi Wang团队发表的论文《“LLMs 会‘感受’情绪吗？情绪回路的发现与调控”》，深入剖析了驱动语言模型产生情绪化输出的内部机制。

该研究揭示了大语言模型“情绪表达的根本原理”，系统回应了“AI是否具备内在情绪机制、情绪表达依赖何种基础、能否实现精准调控”三大关键议题。

据论文作者表示，这是首篇系统性地探索大语言模型情绪生成内在机制的学术论文。

Chenxi Wang指出，两项研究均聚焦于大语言模型自身生成的情绪，而非模型对输入文本中情绪的识别能力，然而Anthropic在最初发布时并未引用他们的成果。

她随即联系了Anthropic的通讯作者Jack Lindsey。Jack同意补充引用，并阐述了他对两篇论文关联性的理解。

Jack起初提出，Chenxi Wang团队的核心发现与博客中引用的若干前期研究存在重合之处。

但Chenxi Wang在逐一审阅这些文献后指出，它们所探讨的实为LLM的“情绪识别”能力——即模型如何辨识文本中的情绪信息，而非“情绪生成的内在机制”。

△

随后，Jack认可了这一区分。

目前，Anthropic已更新其论文博客，在“相关工作”部分加入了对该项研究的引用。

首篇系统性AI情绪回路研究

接下来我们深入探讨这篇华人团队的论文，它主要围绕三个核心问题展开：

AI是否具备内在的情绪机制？这些机制以何种形式存在？能否实现精准调控？

研究团队不仅证实了这些机制的存在，还成功构建了LLM内部的“情绪回路”，实现了比提示词引导和向量操控更精细的情绪控制。

研究以LLaMA-3.2-3B-Instruct为主要实验模型，并在Qwen2.5-7B-Instruct上验证了方法的跨模型泛化能力。

首先回应第一个问题：大模型是否存在“与上下文无关”的情绪机制？

研究者构建了一个受控数据集SEV，涵盖工作、学习、人际关系等8类日常场景。每个场景均配备“正面/中性/负面”三种结局，用于描述同一情境下的不同发展。数据中严格避免使用任何情绪词（如“高兴”“悲伤”），以确保情绪差异仅由事件语义本身驱动。

随后，研究者引导模型表达六种基本情绪（喜悦、愤怒、悲伤、恐惧、惊讶、厌恶），并从模型各层网络中提取出与具体语境无关、仅对应情绪本身的“情绪方向向量”。

值得注意的是，从模型的浅层网络开始，不同情绪的信号便逐渐分离，形成清晰的“情绪聚类”。例如，愤怒与厌恶距离较近，悲伤与恐惧相互邻近，这与人类对情绪关系的直觉高度吻合，且这种聚类结构在深层网络中保持稳定。

这一发现有力回答了第一个问题：模型内部确实编码了稳定且独立于具体语义的情绪表征。

第二个问题：这些情绪机制以什么形式存在？

研究表明，在模型的每一层网络中，仅有少数神经元（位于MLP层）和注意力头（位于Attn层）主导情绪表达。研究者通过两项实验证实了这一点：

消融实验：当抑制这些核心神经元或注意力头时，模型的情绪表达能力显著下降，且仅需关闭2–4个神经元或1–2个注意力头即可产生明显效果。
增强实验：仅激活这些核心组件，即使不提供任何情绪表达指令，模型也能自发产生对应情绪；而激活随机组件则完全无效。

第三个问题：能否利用这些机制实现通用情绪控制？

答案是肯定的，且效果显著优于现有方法。

研究者进一步发现，情绪信息在多层网络中传递，并在深层网络中趋于稳定。他们将各层中影响情绪表达的核心组件按权重整合，形成了跨层连贯的“情绪回路”。

通过直接调控这一回路，模型在测试集上生成指定情绪的总体准确率达到99.65%，大幅超越了传统的“提示词引导”与“向量操控”方法。尤其值得一提的是，此前最难控制的“惊讶”情绪，实现了100%的精准表达。

此外，研究团队在Qwen2.5-7B模型上复现了实验，发现：

由于Qwen模型经过安全对齐，直接操控难以使其表达负面情绪，但采用“情绪回路”方法仍能有效引导其情绪表达；

两个模型均呈现出“少数核心组件主导情绪表达”的共性特征，表明该机制是大语言模型的通用规律，而非特定模型的个别现象。

硕士生挑战Anthropic

论文第一作者陈曦（Chenxi Wang），现为穆罕默德·本·扎耶德人工智能大学自然语言处理方向硕士研究生，本科毕业于西安交通大学计算机科学专业。

其研究方向聚焦于人本人工智能与可解释性研究，已有多篇第一作者/共同第一作者论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前正在通义千问后训练团队实习。

此次事件已告一段落，最终以友好方式收场：

Anthropic方面致歉并补充引用了该项研究；陈曦则对Anthropic在双方研究重叠部分之外所做出的独立贡献表示赞赏。

特别是在情绪表征于不同情境下的功能作用研究方面，包括对偏好及对齐相关行为的影响、真实交互中的激活状态，以及后训练阶段这些表征的演变规律。这些都是我们工作尚未涉及的重要方向。

她还特别指出，通讯作者Jack Lindsey在整个沟通过程中始终保持尊重态度，并积极参与技术层面的深入探讨。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

泛舟湖上清波郎朗

手记
篇

粉丝

33

获赞与收藏

227

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33073 373

网络编程入门教程

20个小节 13756 259

Pandas 入门教程

25个小节 20431 392

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Claude研究疏漏未引华人团队成果，现已公开致歉

阅读免费教程