解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示6
关键词:
MCP、A2A、ADK、Manus、DeepSeek、Computer Use、LangGraph
这里面有一个加法的过程,是因为所谓的我们说的残差网络。因为很多时候我们说transformer的时候,它有两个部分。一个就是它相当于一个道路,一个笔直的道路。为什么说相当于一个笔直的道路呢?是因为它不断的累加有这个残差网络。也就是说他每次经过这transformer的block它会加上前面的内容。所以你可以认为每个transformer的这种block其实是对已有内容的不断的修改,但已有的内容始终要传递到后面,所以他会有一个main stream information。同时他还会有基于这个具体模块,所谓具体模块是我们是指这个transformer block修改后的内容。
而我刚才谈的这个部分,其实是比较非常著名的大模型基础模型公司anthropic他们研究的一个核心的方向。而且目前看来取得了巨大的成果,他本身发布了很多这方面的论文。好啊,然后我们最后的这个这边是MLP projection weight ,大家可以看这边有残差部分。 我们在这里就形成了整个的一个transformer block的内容,它会有很多不同的这个block的内容,然后就不断的去迭代这个过程。
然后你迭代完成之后,我们前面也说了这个linear的过程,就是这个线性转换会把它映射到我们整个vocabulary,是10万个token,但为了算概率,我们这边会,例如说他们soft max的方式,大家在这里我相信应该是可以看得非常清楚,我可以把它放大一点。通过我们前面很多不同的层次的transformer,我们最后得到的是这个logit对吧?那你把这个logit,你要把它变成这个概率的话,会经过特殊的步骤。然后我们可以回到这里,例如说在这边我们看见他前面有这个transformer block本身的这个注意力机制部分,以及我们说的这个MLP的部分。当然他们他每一次他都要进行所谓的残差的加法运算,然后到最后形成一个概率。形成的概率之前,它会通过一个线性的转换加上一个soft max,我们看在这边确实基于对这个logit做soft max运算, 这样我们就完成了整个过程。
其实如果你看一下历史GPT2的话,其实基本上也是同样的一个过程。 我们可以回来,然后我们可以把它放大一点。这样可以大家看的会从一个系统的角度看一下GPT2本身。 nano GPT,这是一个网络上的一个开源的事项。
大家可以看见,当我们谈多头注意力机制的时候,这边是不是有很多不同的head, 这针对每个head,这里面都有我们谈的这个Q、Key和value部分。基本就是重复这个过程本身,没有特别的部分。
这是我们说的整个的transformer。我觉得通过刚才跟大家讲这个transformer本身的流程以及核心的阶段。然后通过可视化的方式,大家对transformer本身,由文本变成下一个token。
而这下一个token是基于我们概率分布的这件事情,我相信这个本身肯定是有一个更加具体的理解。也就是说我要达到一种什么样的一个目标。这个目标就是你知道你输入的是文本,然后你这个文本会经过 三个重要阶段的处理。
-
第一个就是我们的多头注意力机制,它的目标是想识别出哪些信息更加重要。当然它带来那个副作用,这个副作用就是side effect,是每一个token都会包含其他token的信息。因为他就做自注意力机制。什么叫自注意力机制?也就是说例如说how to predict,这里面他这算注意力机制的时候,都有to会和how to predict会和每一个他都会有这个注意力的过程。所以它会包含其他所有元素的信息。这个事情对后面的这个reasoning model肯定是有巨大的作用的。我现在只是稍微跟大家讲一下子,让大家知道有这样的一个side effect,为后续的reason model打下了非常好的基础。比如说你的计算,它的reward score等等之类的就会特别有用了。好啊,这个是第一个最重要的部分。
-
第二个重要的部分就是我们说的这个dense network或者说FFN的部分。这个时候我们会有这个激活函数,激活函数会放大更相关因素的原信息,然后会忽略或者说减少不重要元素的信息,所以我们称之为基础函数,
-
第三个部分就是我们所说的这个线性转换后的这个概率分布, 例如使用softmax会获得一个概率,他们累加会变成概率为一。那基于这样的概率分布,你可能选择特殊点 。例如你选的概率更高的,或者说你选择前面五个概率里面,你随机选一个等等之类。这就会涉及到decoding algorithm算法。所有这些东西目标是想希望大家能够更清晰细的理解这样一幅图。
这幅图你可以简单的分成三个层面,你从我们在所说的unsupervised learning,其实这个严格格意义上角度讲不叫unsupervised learning。注意我们谈这个transformer,我们主要是谈 GPT的角度,就是auto regressive model。
即使我们谈这个GPT本身,你应该知道作为你的训练的时候,你要预测下一个token,你下一个token是不是永远有ground truth。因为那个文本,你说how下面你知道下一个正确的是to,那他预测的对不对,或者说这个loss是多少,你肯定对照一下就知道了。 所以它本身严格意义上不叫unsupervised learning,它应该叫self supervised learning 。只不过这个过程是被自动化了。因为那个文本, 你永远知道下一个token是什么。所以这个天然的有这个ground的truth,但在这里大家可以看见它是一片混乱的状态。是因为你训练的这个数据的质量来源,分布等等之类,这个有太多的问题。
Data engineering肯定是大模型智能体里面一个非常关键的部分。如果说你自己想读一个研究生之类的,我觉得你读人工智能方面的研究生最好。这个研究生的项目在data engineer方面下很多的功夫。因为这个会变成你真正的硬核的实力的核心部分之一。
如果说在现实生产环境下,他和学习环境本身的一个很大不同。在于现实生产环境下,你的数据会有很大的不一致性。这不一致性包括质量的不一致性,也包括来源等等的很多不确定性或者不可验证性等等之类的。而这个数据data engineer显然在里面扮演了非常重要的角色。所以他不像表面上看上去的那么枯燥,或者他可能确实枯燥,但是他确实是你的核心竞争力之一,因为你在做这个unsupervised learning这个部分,如果我们统一按照这个术语或者self supervise learning部分,这里面基本都是data engineering的工作。因为你就是不断的预测下一个token,你怎么去做这些关于data engineering的部分, 包括SFT或者RLHF,以及我们谈reasoning model的时候,这些大部分工作也都是在这个。 我说大部分工作是指大部分耗时的工作 ,但它本身并不能带来我们所说的信息表达的一致性。我相信现在大家应该很清晰的理解这一点。
在探索大模型智能体的过程中,如需进一步交流或获取更多信息,可通过以下方式加群联系:
微信交流:NLP_Matrix_Space 或 NLP_ChatGPT_LLM
电话沟通:+1 650-603-1290
邮件咨询:hiheartfirst@gmail.com
期待与您共同探讨大模型智能体领域的知识,分享见解,共同成长。
本文由博客一文多发平台 OpenWrite 发布!
共同学习,写下你的评论
评论加载中...
作者其他优质文章







