为了账号安全,请及时绑定邮箱和手机立即绑定

MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示3

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示3

关键词:
MCP、A2A、ADK、Manus、DeepSeek、Computer Use、LangGraph

我们有了这个内容之后,当然这还有个layer Normalization。这些大家现在可以忽略这些内容,但如果你知道神经网络相关的内容,这应该对你是一个很基本的一个点。一因为从概率统计的角度讲,如果你们有Normalization,很多时候他的行为不太可控, 但我们看的这个关键就是稍微我们现在的目的是基于这个图,对应我们刚刚跟大家分享的这个transformer本身,它是怎么运作的。从整体的角度更清晰的给大家看一下,我们这个地方说的是transformer block,大家看这边确实进入了transformer block,然后在这里面非常重要的内容就是self attention的。为什么不同的维度提取更多的信息,所以叫multi head self attention。大家可以看到在这边本身它其实就是一个乘法。当我们会在这个self attention的时候,还会具体跟大家谈更细化的内容。
在这里插入图片描述

在这里插入图片描述

有了这个self attention之后,当然它再次产生了这个layer Normalization,然后这边叫做feed forward newer network,或者FFN,或者说我们说的这个dense neural network 当然现在最新一代的例如说llama或者是deep seek,在这个feed forward newer network的时候,我们会使用MOE 。 我们也是非常透彻的跟大家讲解,他会有很多层,比如说有12层,或者说更多的层次,甚至两百多层。
在这里插入图片描述
例如说我们这边大家可以看GPT two,GPT three等等之类,它的层次肯定是随着模型的变化,会不断的来进行改变和调整。理论上讲就是从这个scale law角度讲,层次越高它捕捉的信息会越多,但是这个训练成本也会更大。那他通过不同的这个transformer block,很多的这种block最后他再次有一个layer Normalization。注意,我们现在看的是GPT3,其他的例如说GPT的一些模型,Llama或者等等之类可能有所不同,但这个流程是正确的,就是它基本的整个的系统的模块以及它基本的数据怎么流动是正确的。
在这里插入图片描述
在这里插入图片描述
然后这边有一个linear的过程,这个linear过程主要是干什么呢?就是你每个位置不是不是说都是一个vector, 他最后要实现什么呢?最后要实现的是每一个位置,例如说我们在这个地方的这个位置,他要针对所有的这种 vocabulary,这里面token就是有10万个token,他会他要算出哪一个token是最有可能对应的,就这个位置 它最有可能是对应哪一个token。
在这里插入图片描述

沟通渠道

学术交流:添加微信 NLP_Matrix_Space ,与领域专家深入探讨
即时沟通:致电 +1 650-603-1290 ,获取大咖指导
邮件咨询:发送问题至 hiheartfirst@gmail.com ,专业团队为您解答
学习助手:添加助教微信 NLP_ChatGPT_LLM ,协助解决学习困惑
期待您的加入!通过微信取得联系,即可进入大模型智能体学习社群。在这里,成员们共同钻研前沿知识、交流实践经验、互助解答技术难题,携手探索大模型智能体的无限可能。

本文由博客一文多发平台 OpenWrite 发布!

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消