为了账号安全,请及时绑定邮箱和手机立即绑定

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-从强化学习视角解析大模型生成过程

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-从强化学习视角解析大模型生成过程

语言模型预测下一标记示意图如图7-1所示。给定提示词 Shanghai is a city in,模型对下一个标记进行概率预测。整个模型的产出是一个序列,提示词(Prompt)加上下一个标记(Next Token)构建了状态(State)。在不断自回归的过程中,每次产生的标记及提示词的内容也构建了环境,它是系统与用户交互时提供的内容。基于环境提供新的上下文,策略模型会产生一个行动,从基座模型的角度,大家看见的行动是下一个标记。从强化学习推理模型的角度,行动空间是不同思维链的路径。从更底层更原始的角度,模型会计算logit值及概率分布,每一个标记就是一个行动,其实每个标记也可以代表一个具体的商品或媒介,这极大地扩展了行动空间。
在这里插入图片描述

图7-1 语言模型预测下一标记

模型基于行动空间的不同标记会有一个概率,这个概率可以认为是优势函数(Advances function)产出的结果,例如“China”的概率为85%,“Beijing”为 10%,“Cat”为2.5%。之所以是一条路径(Trajectory),是因为每次产生一个标记时,从时间的角度,它会产生一系列步骤。七八十年前的图灵时代教机器从经验中学习,和现在大模型视角下的强化学习,基本上是同样的概念,通过路径载体沿着时间轴进行,这和图灵时代的教机器学习是完全一致的。尤其是现在DeepSeek等模型和这么久远的时间呼应在一起时,大家会发现AI说到底是在教计算机像人一样做事。更重要的一点是,这是在造就一个超越人类的超级存在(collective intelligence,集体智慧)。蚂蚁或蜜蜂是很经典的集体智慧方式,互联网提供了全人类协作的方式。从强化学习的视角,这不是现在开始或者过去几年开始的,其实从图灵时代就开始了。DeepSeek的出现让大家立即知道了一条清晰的路径。

通过迭代输入标记生成回答示意图如图7-2所示。每次将之前生成的标记添加到输入中,反复查询语言模型。具体过程如下:第0步:初始输入问题 “Where is Shanghai?”,语言模型输出 “Shanghai”。第1步:将上一步输出的 “Shanghai” 加入输入,即 “Where is Shanghai? Shanghai”,语言模型输出 “is”。第2步:再把 “is” 加入输入,变为 “Where is Shanghai? Shanghai is”,语言模型输出 “in”。第3步:将 “in” 加入输入,得到 “Where is Shanghai? Shanghai is in”,语言模型输出 “China” 。通过这样一步步迭代,逐步构建出完整的回答 “Shanghai is in China”。
在这里插入图片描述

图7-2 通过迭代输入标记生成回答
状态及行动示意图如图7-3所示。模型进行强化学习时,每次获得下一个标记,这个标记就是行动,状态是前面的提示词内容,通过策略或模型本身不断训练模型,基于状态产生行动,如“Shanghai”、“China”等。 但提示词会不断动态调整,因为这是逐个产生标记的自回归过程。当语言模型生成一个很好的回复时,奖励模型(Reward model)会给予奖励,如果生成一个不好的回复,就不会获得奖励。对语言模型而言,策略是大语言模型自身,它会对当前状态下动作空间的概率进行预测。
在这里插入图片描述

图7-3 状态及行动示意图
基于比较的奖励模型示意图如图7-4所示。训练大模型时,让模型服从于人类的偏好。同样一个输入,可以产生很多不同的输出。对于两个回答,大家会选择一个更好的回答,因为人们很擅长做比较。例如,输入问题Where is Shanghai?(上海在哪里?),这边有2个回答,第1个答案为Shanghai is a city in China(上海是中国的一座城市),第2个答案为Shanghai does not exist(上海不存在),显然最终的选择是第1个回答。
在这里插入图片描述

图7-4 基于比较的奖励模型
Transformer 驱动的奖励模型示意图如图7-5所示。为了表达现实世界中哪一个是人类更喜欢的,可以将Transformer的最后一个标记变成奖励值,在产生奖励值之前经历了一个线性转换层,大家可以认为这个线性转换层是奖励模型,最简单的实现是一个两三层的神经网络,甚至是一层的神经网络。在实际生产中发现,三层以内的Transformer的每条逻辑路径都是完全可控的。不过正常情况下设成两层,通过完全精准地控制两层的Transformer奖励模型,大家会神奇地发现能够精准地控制转折点(inflection point),例如与用户聊天,每次聊天都有当前的信息和历史的信息,聊天的过程是一个序列,如何判断出下一个序列、第二轮或第三轮要卖货,从而判断一个最精确的卖货点,这都是一些工程级别的最佳实践,都是围绕强化学习产生的。
在这里插入图片描述

图7-5 Transformer 驱动的奖励模型
奖励模型损失函数示意图如图7-6所示。通过强化学习优化语言模型行为,需要一个奖励模型,为语言模型生成的每个响应打分。奖励模型的损失函数公式为:
Loss= -log⁡〖σ(r(x,y_w )- r(x,y_l ) )
其中涉及两个关键情况:
当r(x,y_w )> r(x,y_l ),Sigmoid输出大于0.5,损失为一个较小的负数,这时排序是正确的,损失比较小。
当r(x,y_w )< r(x,y_l ),Sigmoid输出小于0.5,损失为一个较大的负数,这时排序有误,损失很大。
通过以上奖励模型的目标函数,让模型给好的回复一个更高的奖励、不好的回复一个较低的奖励,以最小化损失。

在这里插入图片描述
图7-6 奖励模型损失函数

在学习研究过程中,大家如果想和同行进一步交流,或遇到专业问题想进一步探讨,可通过以下方式建立联系:
微信:NLP_Matrix_Space 或 NLP_ChatGPT_LLM
电话:+1 650-603-1290
邮箱:hiheartfirst@gmail.com

本文由博客一文多发平台 OpenWrite 发布!

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消