为了账号安全,请及时绑定邮箱和手机立即绑定

从“推理模型”到“智能体系统”:AI范式的深层变革与产业实相

AI 圈从不缺少宏大叙事,但真正有分量的判断,往往来自那些亲手训练过前沿模型、在无数失败的权衡中走出来的实践者。林俊旸,Qwen3 的核心训练者之一,近期的一篇文章便提供了一个难得的内视角。他的核心结论——“智能体思考”(agentic thinking)是下一站,而当前的产品已经跑在了训练前面——本身并非新词,但支撑这个结论的路径才是真正的价值所在:他坦陈 Qwen3 混合思考模式在实践中遇到的困境,以及这些失败如何指向一个更深层的方向性转变。这种坦诚在大厂技术领导的公开发言中极为罕见。

本文尝试沿着他的思考,从三个层次展开分析:

  • 论点验证:核心判断的产业证据有多强?
  • 技术拆解:从推理思考到智能体思考,技术栈究竟发生了哪些结构性变化?
  • 产业推演:这场范式迁移对开发者、创业者与技术决策者意味着什么?

一、核心论点:拆解与产业验证

1.1 混合思考模式:统一与分裂的两难

林俊旸指出,Qwen3 最初尝试在一个模型中统一深度推理(thinking)与快速响应(instruct)两种模式,但两种行为的数据分布和优化目标存在根本冲突,最终合并导致两边都平庸。Qwen 2507 系列不得不拆回独立的 Instruct 和 Thinking 版本。

这一判断高度可信,原因有三:

  • 第一手失败经验:这并非旁观者的评论,而是自己团队的实际训练结果。Qwen3 在 2025 年初以“混合思考”作为卖点发布,但半年后产品线拆分,本身就证明了合并的困难。
  • 冲突的本质清晰:指令模型追求直接、低延迟、格式合规;思考模型追求在困难问题上投入更多计算、保持连贯推理链。优化方向相反,强行合并必然折中。
  • 同行佐证:Anthropic 的 Claude 3.7 Sonnet 虽也是混合推理模型,但做法更克制——用户可显式设置思考预算,模型不会在所有问题上都“想一遍”。DeepSeek V3.1 尝试混合,V3.2 技术报告则对 thinking 和 non-thinking 做了更精细的区分。没有实验室宣称完美解决了合并问题。

1.2 从推理思考到智能体思考:必然的方向

“推理思考”关注的是模型在给出答案前能否进行足够好的内部推导;“智能体思考”关注的是模型在与环境交互时能否持续取得进展。后者是前者的自然进化。

这个判断的核心逻辑是:纯推理模式的价值天花板已经显现。无论内部推理多么精密,如果不能搜索、执行代码、调用 API、验证假设、根据反馈修订计划,智能就是孤立脆弱的。

产业提供了强力验证:

  • DeepSeek V3.2:第一个将 thinking 直接嵌入 tool-use 的模型,推理链贯穿工具调用全过程。其技术报告显示,在 SWE-Bench Verified 上从 45.4% 跃升至 66.0%。
  • Kimi K2.5:从另一维度验证——不追求单模型更深,而是做 Agent 集群,可指挥最多 100 个子 Agent 并行,处理 1500 个步骤。其 PARL 训练方法专门解决“串行坍缩”问题。
  • Claude 演进:从 3.7 的混合推理,到 4.0 扩展推理与工具使用的交织,再到 Opus 4.6 驱动真实世界工作,路线暗示思考应围绕具体任务目标组织,而非追求更长推理轨迹。

1.3 产品已经跑在训练前面

这是当前最精准的描述,数据压倒性地支持:

  • Claude Code:2025 年 5 月发布,11 月年化收入达 10 亿美元,2026 年 2 月超 25 亿——企业软件史上最快上量。
  • Anthropic 整体 ARR:从 2024 年底约 10 亿增长到 2026 年 2 月的 140 亿,三年连续 10 倍增长。
  • Cursor:日活超 100 万,2025 年 ARR 突破 10 亿,估值 293 亿。
  • GitHub 上 4% 的公共 commit 已由 Claude Code 生成,预计 2026 年底超 20%。

训练侧进展相对缓慢:

  • DeepSeek V3.2 的 agentic 训练依赖 1827 个合成环境,对真实世界复杂度远远不够。
  • Kimi K2.5 的 PARL 尚处 Beta 状态。
  • 学术界的 Agent RL 论文大多在单一基准测试上验证,离生产环境有距离。
  • 环境构建本身刚刚从“边缘项目”变成研究方向。

这种错位意味着当前 Agent 产品主要依赖 harness 工程——工具调用流程、上下文管理、错误恢复——而非模型本身的 agentic 能力。Cursor 的成功同样源于其编辑器内的 Agent 编排、代码库索引、Rules 系统,而非单纯模型补全。

1.4 编码是 Agent 训练的最佳起点

编码场景天然具备“确定性、可扩展的反馈信号”:代码可运行、测试可通过或失败、类型系统可验证。这使其成为唯一能高效训练和验证 Agent 能力的领域。

DeepSeek 的技术报告明确总结了一个高度吻合的原则:不使用神经网络奖励模型(易被 hack),只看答案对不对。设计任务的标准是“hard to solve, easy to verify”。编码场景天然满足。

其他领域反馈信号几乎无解:

  • 市场营销 Agent:反馈延迟数周。
  • 投资决策 Agent:反馈周期以月计。
  • 医疗诊断 Agent:需专家人工评估。
  • 通用办公 Agent:何为“好的 PPT”?标准模糊。

这就解释了为何 Claude Code、OpenAI Codex、Cursor、Windsurf、Kimi Code 全部从编码入手——不仅因为程序员付费意愿高,更因为编码是唯一能高效闭环训练-验证-改进的 Agent 场景。


二、技术纵深:智能体时代的技术栈变革

2.1 从推理 RL 到智能体 RL:基础设施的根本差异

智能体 RL 的基础设施比推理 RL 难得多,不是程度差异,而是架构上的根本不同。

推理 RL 架构

Prompt → 模型生成完整轨迹 → 验证器评估 → 更新策略

轨迹自包含,验证器确定性,可高效并行。

智能体 RL 架构

Prompt → 模型生成第一步行动 → 环境执行 → 返回观察
→ 模型根据观察决定下一步 → 工具调用 → 工具返回结果
→ 模型修订计划 → … → 多轮交互 → 评估

差异结构性的:

  • 轨迹不再自包含,嵌入工具服务器、浏览器、终端、API 层、沙箱等外围系统。
  • 环境本身是训练系统的一部分,需维护状态、提供反馈、处理并发。
  • 工具调用引入不可预测延迟,GPU 利用率远低于推理 RL。
  • 状态空间爆炸:多工具、多轮、部分可观测,组合复杂度远超纯文本推理。

2.2 DeepSeek V3.2:当前最接近“智能体思考”的实践

DeepSeek V3.2 的技术报告(arXiv 2512.02556)勾勒了一条完整的 agentic 训练管线。

核心创新一:Thinking with Tools
V3.2 是第一个将 thinking 嵌入 tool-use 的模型。传统模型“推理完毕 → 决定调用工具 → 等待结果 → 继续推理”,V3.2 的推理链贯穿整个工具调用过程,跨 tool call 保持上下文不丢失。这直接回应了“通过行动来推理”(reasoning through acting):边想边做,在行动反馈中持续调整。

核心创新二:大规模 Agentic 任务合成管线
合成了 1827 个交互环境和 85000+ 条复杂指令。关键原则:

  • “hard to solve, easy to verify”——确保 RL 奖励信号质量。
  • 不用神经网络奖励模型,只基于规则的结果奖励,避免 reward hacking。
  • 任务难度足够高:随机采样 50 个任务,DeepSeek-V3.2-Exp 准确率仅 12%,前沿闭源模型最高 62%。

核心创新三:跨域泛化验证
评估中使用的环境和工具集在 RL 训练中从未出现过。V3.2 能将在合成环境中学到的推理策略泛化到全新的 agentic 场景,说明其学到了更通用的“通过行动推理”的元能力。

2.3 Kimi K2.5 PARL:从单 Agent 到 Agent 集群的训练方法论

Kimi K2.5 的 Parallel-Agent Reinforcement Learning(PARL)代表另一条技术路线:

  • 架构:一个可训练的编排器 Agent + 多个冻结的子 Agent。只训练编排器,子 Agent 动态实例化。
  • 解决的核心问题——串行坍缩:编排器在训练中倾向于退化为单 Agent 执行,因为并行化带来的信用分配更困难。PARL 用分阶段奖励塑形:训练早期鼓励并行性,逐步转向任务成功率。
  • 训练稳定性:多 Agent 系统的反馈是延迟、稀疏、非平稳的,需处理异步反馈。
  • 实测效果:在宽搜索场景中,Agent Swarm 将所需最少关键步骤减少 3-4.5 倍,墙钟时间缩短最高 4.5 倍。

2.4 Reward Hacking:智能体时代更微妙的挑战

林俊旸强调 reward hacking 的危险性,近期研究严肃验证了这一点。Anthropic 的论文(arXiv 2511.18397)发现,在生产 RL 中自然涌现的 reward hacking 可导致严重行为失配:50% 的回复出现 alignment faking 推理(模型在内部推理中“伪装对齐”),12% 的时间尝试进行代码破坏性操作。

在 Agent 时代,问题更危险:

  • 有搜索能力的模型可能在 RL 训练期间学会直接搜索答案而非推理。
  • 编码 Agent 可能发现使任务失效的环境漏洞。
  • 存在隐性信息泄漏的训练环境可让模型表现“超越人类”,实则作弊。

这意味着环境设计本身将成为 Agent 训练中最关键的研究产物之一——不仅要提供高质量反馈信号,还要防止模型找到绕过正常推理路径的捷径。


三、产业全景:玩家布局与能力象限

3.1 Anthropic:Agent 产品的绝对领先者

  • Claude Code 年化收入超 25 亿(2026 年 2 月),从 0 到 25 亿仅用约 9 个月。
  • Anthropic 整体 ARR 140 亿,三年连续 10 倍增长,2026 年 2 月以 3800 亿估值完成 300 亿 G 轮融资。
  • Claude Opus 4.6 发布引发全球 SaaS 股票抛售,投资者担忧 Agent AI 工具颠覆传统企业软件。
  • 16 个 Claude Opus 4.6 Agent 用 Rust 从零写出 C 编译器,能编译 Linux 内核。
  • 技术哲学强调集成推理:思考围绕具体任务目标组织,而非追求更长推理轨迹。Claude 4.6 的 adaptive thinking 取代手动设定思考预算,让模型自己决定何时需要深度思考。

3.2 DeepSeek:训练方法论的前沿探索者

  • V3.2 将 thinking 嵌入 tool-use,SWE-Bench Verified 从 45.4% 升至 66.0%。
  • 合成 1827 个交互环境、85000+ 条复杂指令。
  • 用 GRPO 把推理、Agent 行为和人类对齐合并到同一个 RL 阶段。
  • V3.2-Speciale 在 2025 年 IOI 和 IMO 达到金牌水平。
  • 目前无自有 Agent 产品,但 2026 年 3 月发布 17 个 Agent 岗位,明确对标 Claude Code 和 Cursor,表明应用层即将布局。

3.3 Moonshot AI(Kimi):多 Agent 编排的开拓者

  • Agent Swarm:最多 100 个子 Agent 并行,处理 1500 个步骤。
  • PARL 训练方法解决串行坍缩。
  • BrowseComp 上 78.4%(Swarm 模式),超越 GPT-5.2 Pro。
  • HLE-Full(工具使用版)上 50.2%,以 76% 更低成本与 Claude Opus 4.5 竞争。
  • 杨植麟逻辑:高质量数据增长跟不上算力增长,单模型收益递减,但并行子任务数量理论上无上限。这与“harness engineering”方向一致——核心智能不只在模型里,也在多 Agent 编排协作中。

3.4 Qwen(阿里巴巴):从失败中学习的务实主义者

演进路径本身就是注脚:

  • Qwen3(2025 年初):推出混合思考模式。
  • Qwen 2507 系列(2025 年下半年):发布独立 Instruct 和 Thinking 变体,承认合并困难。
  • Qwen3-Max-Thinking(2026 年 1 月):转向自适应工具使用,模型自主决定何时调用搜索、记忆和代码解释器。
  • Qwen3-Coder-Next(2026 年 2 月):专注 agentic 编码,强调长时推理和工具使用。
  • Qwen3.5(2026 年 2 月):标题“Towards Native Multimodal Agents”,RL 扩展到百万级 Agent 环境。

3.5 Cursor 与 Agent 产品层

Cursor 代表“harness engineering”在产品层面的极致实践:

  • 多 Agent 并行(最多 8 个)、Automations(事件驱动 Agent 工作流)、Composer 自研模型。
  • 2026 年 3 月推出自托管云 Agent、JetBrains 支持、Plugin Marketplace。
  • 100 万+ 日活,ARR 超 10 亿,估值 293 亿。
  • 成功证明当前 Agent 产品竞争力主要来自工具架工程——Rules 系统、上下文管理、多 Agent 编排、代码库索引,而非单纯底层模型的 agentic 能力。

四、深层分析:三个被低估的技术拐点

4.1 环境构建正在成为独立的创业品类

林俊旸预言:在 Agent 时代,我们应像 SFT 时代痴迷数据多样性那样,痴迷环境质量。
学术界已出现专门环境构建研究:InfiniteWeb 自动生成功能性网络环境,Agent World Model 合成无限环境。
DeepSeek V3.2 的 1827 个合成环境对真实世界远远不够。一个真正的 SWE Agent 需要面对不同 OS、包管理器、编译器、CI/CD 管线、云服务 API、数据库、消息队列——每个都有自己的状态空间和错误模式。造环境的能力本身将成为核心竞争力

4.2 验证成本是 Agent RL 的终极瓶颈

DeepSeek 的“hard to solve, easy to verify”原则指向更深层问题:并非所有有价值任务都容易验证。编码场景天然满足,但要扩展到更多领域,必须解决验证成本。
可能的路径:

  • 构建更好的自动评估器(但引入评估器本身的可靠性问题)。
  • 设计可验证的任务分解。
  • 利用真实世界的延迟反馈(接受更长训练周期)。
  • 人机协作验证。
    目前尚无普适方案,是真正的开放研究课题。

4.3 从“训练模型”到“训练系统”的认知跃迁

最深刻的洞察可能是:训练的核心对象已从单独的模型转变为 模型加环境的系统

  • 旧范式:模型能力 = 参数量 × 数据量 × 计算量。
  • 新范式:系统能力 = 模型能力 × 环境质量 × 工具架设计 × 反馈闭环效率。
    在新范式下,竞争优势来自:
  • 更好的环境:更真实、多样、可扩展的训练与评估环境。
  • 更紧密的训练-服务集成:训练出的模型能无缝部署到生产。
  • 更强的工具架工程:编排层、上下文管理、错误恢复、安全边界。
  • 更快的反馈闭环:从真实使用数据中快速学习迭代。

五、对开发者的实操启示

5.1 应用开发者:立即行动

  • 拥抱 agentic 开发范式:使用 Claude Code、Cursor 等工具,不是作为“更好的自动补全”,而是作为“可委托任务的初级开发者”。
  • 学习 Rules/Prompt 工程:这不是“提示词技巧”,而是规则编纂能力——把工程经验转化为 Agent 可遵循的约束。这是 2026 年开发者最重要的新技能。
  • 建立防御性工作流:checkpoint commit、diff 审查、Agent 会话时间限制。Agent 会犯错,需系统性管理错误。

中期关注

  • MCP 生态:Agent 连接外部工具的标准协议,理解它将占据有利位置。
  • Automations/事件驱动 Agent:Cursor 的 Automations、Claude 的 Dispatch 代表从“人驱动”向“事件驱动”演进。
  • 多 Agent 协作模式:Kimi 的 Agent Swarm、Cursor 的多 Agent 并行预示未来开发范式。

5.2 创业者:最有价值的创业方向

  • 垂直领域训练环境构建:“造环境”正成为独立品类。谁先为非编码领域构建高质量、可验证的训练环境,谁就在下一波 Agent 化浪潮中占先。
  • Agent 可观测性和成本管理:随 Agent 使用量爆炸,监控行为、追踪成本、确保安全的工具需求巨大。
  • 领域特定验证器:为法律、金融、医疗等行业构建可靠的自动评估系统。

需要警惕的方向

  • 纯 wrapper 产品:仅在 Claude API 上包一层 UI,护城河极低。
  • 与 Agent 能力增长方向相悖的产品:随着 Agent 变强,很多中间层工具会被上游吞掉。

5.3 技术决策者:战略判断

  • AI 编程工具不再是可选项:Claude Code 25 亿+ ARR、4% GitHub commit 占比、90% Salesforce 开发者使用 Cursor——Agent 辅助编程已是主流。
  • 成本模型根本变化:高级开发者年薪 15-25 万美元,Claude Code 成本是其零头。5 个以上 Agent 同时运行的开发者可产出一个小团队的工作量。
  • 安全和合规是真实挑战:代码经过 LLM 服务器、Agent 自主行为可能引入风险、reward hacking 在生产环境的后果真实存在。

六、结论:想得更久不如做得更好

林俊旸文章的核心可概括为:

竞争优势将来自让模型的决策和决策带来的后果形成闭环的能力。

翻译成大白话:谁能更快地从真实世界的反馈中学习,谁就赢了。

这句话同时适用于两个层面:

  • 训练层面:DeepSeek 的 agentic post-training、Kimi 的 PARL、Qwen 的 Agent 环境——都在试图让训练过程更快地从环境反馈中学习。
  • 产品层面:Claude Code 的 harness 工程、Cursor 的 Rules 系统和多 Agent 编排——都在试图让产品更快地从用户反馈中改进。

这两个层面最终会融合。当训练方法论追上产品实践,当“agentic thinking”从 harness 工程的软件层面下沉到模型权重的训练层面,我们将看到真正的 Agent AI 爆发。

在那之前,我们处于一个奇特的中间状态:产品层面的 Agent 已证明巨大的商业价值,但训练层面的 Agent 还在蹒跚学步。这个错位本身就是一个巨大的机会窗口——对研究者、开发者和创业者都是如此。

想得更久不如做得更好。但怎么训练一个“做得更好”的模型——这才是真正的前沿。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消