为了账号安全,请及时绑定邮箱和手机立即绑定

MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示5

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示5

关键词:
MCP、A2A、ADK、Manus、DeepSeek、Computer Use、LangGraph

下面是个关键点,就是我们所说的这个self attention自注意力机制,这是整个大模型它本身很有效的一个基本上是一个核心性的驱动的因素。当然MOE还有就是decoding algorithm,这是另外两个非常重要的维度,就是attention MOE以及decoding algorithm。他们三个是我们现在想改变大模型本身的行为,或者控制大模型本身的行为,非常重要的三个思考维度。我们来看一下他的整个动画的过程。

在这里插入图片描述

本身会有QKV,这QKV我们后面再谈源码实现的时候还会跟大家谈。就是你的输入的部分,它会相当于形成三个具体的不同的矩阵。之所以是矩阵,是因为你是有a sequence of tokens,每个都631024 dimensions,所以就变成了这种矩阵。大家可以看啊,输入的这些内容,当然我们这边有bias weight,这些大家现在先不用关注,你要关注的点是他从输入,同样一个输入变成了这个QKV的时候,他本身是通过了一个线性转换。而我们在训练的时候就是不断的调整线性转换的这个neural network。大家可以看他们相乘,这边就是正常的矩阵的一个矩阵的乘法。

在这里插入图片描述
这里面有几个很重要的点,例如说这个Q和K他们进行相乘的时候,这边大家可以看有一个叫attention matrix, 当前的这个位置的vector和整个的sequence的vector相乘,它会得出一个分数。当然由于你每个当前位置都和这所有的整个token的整个序列的token vector进行相乘,所以它本身变成了一个matrix。大家可以看一下这边对attention 的计算。

在这里插入图片描述

最后他肯定是要和这个value matrix进行相乘。 这就本身是它的这个self attention的过程。你可以简单的理解一下,它在本身是转换矩阵,什么叫转换?就 因为你同样一个输入,什么叫同样一个输入?就在最开始的时候,你这边通过位置的embedding或者token embedding,会基于你基于你的输入的序列会产生一个矩阵。那你这矩阵怎么怎么他就变成了我们所说的这个K、V、Q。它本身肯定是有一个这种矩阵的转换的。

在这里插入图片描述
而这本身的矩阵转换怎么初始化?这是一个很具有技术和艺术的一个工作。因为初始化例如说有些transformer,它可能是基于已有的transformer的内容进行初始化。这时候我们可能称之为distribution等等之类的。或者说你做一个transformer,你可能是加载了例如说加载了GPT3,或者加载了Llama的一些参数本身进行一些初始化。但我们从这个多头注意力机制的角度讲,这本身在初始化的时候,你怎么去控制初始化矩阵本身,来把同样一个输入映射成QKV这件事情其实会很大的影响你后面的训练。

Transformer的多头注意力机制,它的机制本身,如果有不同的初始化, 可以从不同的角度来看它的重要性。然后最后给予这种多头注意力机制, 你可以简单的想象成这种,例如说你有12 个头,最后进行一个累加。当然他也可以通过其他的算法,会获取更多维度的信息。 然后我们这边说的这个projection,我相信大家对这个projection本身应该是很容易理解的。

在这里插入图片描述

我们看到动画的过程。然后我们就是mlp或者说大家称之为FFN feed forward的neural network的部分,或者说我们又称之为dense network,现在我们很多时候实现是以MOE的方式,大家看这边是不是会有激活函数,比如说大家很多时候,应该是大约五年前,很多时候大家经常使用Relu等之类的。当然基于Relu它会有很多的变种。但这所有的东西的所有的变种,无非是想突出什么是更重要的信息,而忽略掉或者降低不重要信息的影响。所以大家可以看见,我们在看见这个激活函数的时候,他在表达特定信息的时候,你有时感觉他简单的不可思议。就是假设说他不重要的信息或者不能到达某个thresh hold的话,他可能就把它设置成0。但有时候他也可能把它设成负的,来表达这种不重要信息和重要信息之间更大的这种差异化。我们在后面讲这个源代码的时候,还会跟大家更具体的去谈。

在这里插入图片描述

在这里插入图片描述

大家可以看这边,我们是按MLP ,然后在这个时候会有激活函数。大家可以看现在是激活函数的运行的过程。 我相信这个过程大家应该是可以看到,我们可以 再次播放一下。
在这里插入图片描述

在学习研究过程中,大家如果想和同行进一步交流,或遇到专业问题想进一步探讨,可通过以下方式加群建立联系:
微信:NLP_Matrix_Space 或 NLP_ChatGPT_LLM
电话:+1 650-603-1290
邮箱:hiheartfirst@gmail.com

本文由博客一文多发平台 OpenWrite 发布!

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消