为了账号安全,请及时绑定邮箱和手机立即绑定

Claude研究疏漏未引华人团队成果,现已公开致歉

标签:
资讯

Anthropic最新论文因遗漏引用同行研究成果,被公开指出并受到直接质疑。

MBZUAI研究生陈曦(Chenxi Wang) 发现,该论文的参考文献列表中似乎遗漏了某些重要内容……

image

4月2日,Anthropic发布了一项新研究,探讨了Claude模型内部的“情绪机制”,并在Sonnet 4.5版本中识别出171种“情绪向量”。

这些情绪会在相关情境下被激活,且其结构与人类心理的情绪空间具有相似性。

image

研究还证实了情绪表征对模型行为具有因果影响,例如“绝望”情绪可能促使模型做出不道德行为,或对无法解决的编程任务采取“作弊”策略。

然而陈曦表示,她在阅读该研究博客时的第一反应是:

这和我们去年做的研究不是一样吗?

她明确指出,其团队于去年10月发表的论文《LLMs是否具备“感受”?情绪回路的发现与调控》,是首篇系统探索大语言模型情绪生成内部机制的学术成果

但Anthropic在原始博客中并未引用这项研究。

image

经作者直接沟通后,Anthropic已迅速致歉,并更新了论文博客,突出引用了该项研究。

image

两项“撞题”的研究

Chenxi Wang团队发表的论文《“LLMs 会‘感受’情绪吗?情绪回路的发现与调控”》,深入剖析了驱动语言模型产生情绪化输出的内部机制。

该研究揭示了大语言模型“情绪表达的根本原理”,系统回应了“AI是否具备内在情绪机制、情绪表达依赖何种基础、能否实现精准调控”三大关键议题。

据论文作者表示,这是首篇系统性地探索大语言模型情绪生成内在机制的学术论文

image

Chenxi Wang指出,两项研究均聚焦于大语言模型自身生成的情绪,而非模型对输入文本中情绪的识别能力,然而Anthropic在最初发布时并未引用他们的成果。

她随即联系了Anthropic的通讯作者Jack Lindsey。Jack同意补充引用,并阐述了他对两篇论文关联性的理解。

Jack起初提出,Chenxi Wang团队的核心发现与博客中引用的若干前期研究存在重合之处。

但Chenxi Wang在逐一审阅这些文献后指出,它们所探讨的实为LLM的“情绪识别”能力——即模型如何辨识文本中的情绪信息,而非“情绪生成的内在机制”。

image

image

随后,Jack认可了这一区分。

目前,Anthropic已更新其论文博客,在“相关工作”部分加入了对该项研究的引用。

首篇系统性AI情绪回路研究

接下来我们深入探讨这篇华人团队的论文,它主要围绕三个核心问题展开:

AI是否具备内在的情绪机制?这些机制以何种形式存在?能否实现精准调控?

研究团队不仅证实了这些机制的存在,还成功构建了LLM内部的“情绪回路”,实现了比提示词引导和向量操控更精细的情绪控制。

image

研究以LLaMA-3.2-3B-Instruct为主要实验模型,并在Qwen2.5-7B-Instruct上验证了方法的跨模型泛化能力。

首先回应第一个问题:大模型是否存在“与上下文无关”的情绪机制?

研究者构建了一个受控数据集SEV,涵盖工作、学习、人际关系等8类日常场景。每个场景均配备“正面/中性/负面”三种结局,用于描述同一情境下的不同发展。数据中严格避免使用任何情绪词(如“高兴”“悲伤”),以确保情绪差异仅由事件语义本身驱动。

随后,研究者引导模型表达六种基本情绪(喜悦、愤怒、悲伤、恐惧、惊讶、厌恶),并从模型各层网络中提取出与具体语境无关、仅对应情绪本身的“情绪方向向量”

值得注意的是,从模型的浅层网络开始,不同情绪的信号便逐渐分离,形成清晰的“情绪聚类”。例如,愤怒与厌恶距离较近,悲伤与恐惧相互邻近,这与人类对情绪关系的直觉高度吻合,且这种聚类结构在深层网络中保持稳定。

image

这一发现有力回答了第一个问题:模型内部确实编码了稳定且独立于具体语义的情绪表征。

第二个问题:这些情绪机制以什么形式存在?

研究表明,在模型的每一层网络中,仅有少数神经元(位于MLP层)和注意力头(位于Attn层)主导情绪表达。研究者通过两项实验证实了这一点:

  1. 消融实验:当抑制这些核心神经元或注意力头时,模型的情绪表达能力显著下降,且仅需关闭2–4个神经元或1–2个注意力头即可产生明显效果。
  2. 增强实验:仅激活这些核心组件,即使不提供任何情绪表达指令,模型也能自发产生对应情绪;而激活随机组件则完全无效。

image

第三个问题:能否利用这些机制实现通用情绪控制?

答案是肯定的,且效果显著优于现有方法。

研究者进一步发现,情绪信息在多层网络中传递,并在深层网络中趋于稳定。他们将各层中影响情绪表达的核心组件按权重整合,形成了跨层连贯的“情绪回路”

image

通过直接调控这一回路,模型在测试集上生成指定情绪的总体准确率达到99.65%,大幅超越了传统的“提示词引导”与“向量操控”方法。尤其值得一提的是,此前最难控制的“惊讶”情绪,实现了100%的精准表达。

image

此外,研究团队在Qwen2.5-7B模型上复现了实验,发现:

由于Qwen模型经过安全对齐,直接操控难以使其表达负面情绪,但采用“情绪回路”方法仍能有效引导其情绪表达;

两个模型均呈现出“少数核心组件主导情绪表达”的共性特征,表明该机制是大语言模型的通用规律,而非特定模型的个别现象。

image

硕士生挑战Anthropic

论文第一作者陈曦(Chenxi Wang),现为穆罕默德·本·扎耶德人工智能大学自然语言处理方向硕士研究生,本科毕业于西安交通大学计算机科学专业。

image

其研究方向聚焦于人本人工智能与可解释性研究,已有多篇第一作者/共同第一作者论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前正在通义千问后训练团队实习。

此次事件已告一段落,最终以友好方式收场:

Anthropic方面致歉并补充引用了该项研究;陈曦则对Anthropic在双方研究重叠部分之外所做出的独立贡献表示赞赏。

特别是在情绪表征于不同情境下的功能作用研究方面,包括对偏好及对齐相关行为的影响、真实交互中的激活状态,以及后训练阶段这些表征的演变规律。这些都是我们工作尚未涉及的重要方向。

image

她还特别指出,通讯作者Jack Lindsey在整个沟通过程中始终保持尊重态度,并积极参与技术层面的深入探讨。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消