首页手记从“推理模型”到“...

从“推理模型”到“智能体系统”：AI范式的深层变革与产业实相

标签：

机器学习深度学习算法人工智能计算机视觉自然语言处理

AI 圈从不缺少宏大叙事，但真正有分量的判断，往往来自那些亲手训练过前沿模型、在无数失败的权衡中走出来的实践者。林俊旸，Qwen3 的核心训练者之一，近期的一篇文章便提供了一个难得的内视角。他的核心结论——“智能体思考”（agentic thinking）是下一站，而当前的产品已经跑在了训练前面——本身并非新词，但支撑这个结论的路径才是真正的价值所在：他坦陈 Qwen3 混合思考模式在实践中遇到的困境，以及这些失败如何指向一个更深层的方向性转变。这种坦诚在大厂技术领导的公开发言中极为罕见。

本文尝试沿着他的思考，从三个层次展开分析：

论点验证：核心判断的产业证据有多强？
技术拆解：从推理思考到智能体思考，技术栈究竟发生了哪些结构性变化？
产业推演：这场范式迁移对开发者、创业者与技术决策者意味着什么？

一、核心论点：拆解与产业验证

1.1 混合思考模式：统一与分裂的两难

林俊旸指出，Qwen3 最初尝试在一个模型中统一深度推理（thinking）与快速响应（instruct）两种模式，但两种行为的数据分布和优化目标存在根本冲突，最终合并导致两边都平庸。Qwen 2507 系列不得不拆回独立的 Instruct 和 Thinking 版本。

这一判断高度可信，原因有三：

第一手失败经验：这并非旁观者的评论，而是自己团队的实际训练结果。Qwen3 在 2025 年初以“混合思考”作为卖点发布，但半年后产品线拆分，本身就证明了合并的困难。
冲突的本质清晰：指令模型追求直接、低延迟、格式合规；思考模型追求在困难问题上投入更多计算、保持连贯推理链。优化方向相反，强行合并必然折中。
同行佐证：Anthropic 的 Claude 3.7 Sonnet 虽也是混合推理模型，但做法更克制——用户可显式设置思考预算，模型不会在所有问题上都“想一遍”。DeepSeek V3.1 尝试混合，V3.2 技术报告则对 thinking 和 non-thinking 做了更精细的区分。没有实验室宣称完美解决了合并问题。

1.2 从推理思考到智能体思考：必然的方向

“推理思考”关注的是模型在给出答案前能否进行足够好的内部推导；“智能体思考”关注的是模型在与环境交互时能否持续取得进展。后者是前者的自然进化。

这个判断的核心逻辑是：纯推理模式的价值天花板已经显现。无论内部推理多么精密，如果不能搜索、执行代码、调用 API、验证假设、根据反馈修订计划，智能就是孤立脆弱的。

产业提供了强力验证：

DeepSeek V3.2：第一个将 thinking 直接嵌入 tool-use 的模型，推理链贯穿工具调用全过程。其技术报告显示，在 SWE-Bench Verified 上从 45.4% 跃升至 66.0%。
Kimi K2.5：从另一维度验证——不追求单模型更深，而是做 Agent 集群，可指挥最多 100 个子 Agent 并行，处理 1500 个步骤。其 PARL 训练方法专门解决“串行坍缩”问题。
Claude 演进：从 3.7 的混合推理，到 4.0 扩展推理与工具使用的交织，再到 Opus 4.6 驱动真实世界工作，路线暗示思考应围绕具体任务目标组织，而非追求更长推理轨迹。

1.3 产品已经跑在训练前面

这是当前最精准的描述，数据压倒性地支持：

Claude Code：2025 年 5 月发布，11 月年化收入达 10 亿美元，2026 年 2 月超 25 亿——企业软件史上最快上量。
Anthropic 整体 ARR：从 2024 年底约 10 亿增长到 2026 年 2 月的 140 亿，三年连续 10 倍增长。
Cursor：日活超 100 万，2025 年 ARR 突破 10 亿，估值 293 亿。
GitHub 上 4% 的公共 commit 已由 Claude Code 生成，预计 2026 年底超 20%。

训练侧进展相对缓慢：

DeepSeek V3.2 的 agentic 训练依赖 1827 个合成环境，对真实世界复杂度远远不够。
Kimi K2.5 的 PARL 尚处 Beta 状态。
学术界的 Agent RL 论文大多在单一基准测试上验证，离生产环境有距离。
环境构建本身刚刚从“边缘项目”变成研究方向。

这种错位意味着当前 Agent 产品主要依赖 harness 工程——工具调用流程、上下文管理、错误恢复——而非模型本身的 agentic 能力。Cursor 的成功同样源于其编辑器内的 Agent 编排、代码库索引、Rules 系统，而非单纯模型补全。

1.4 编码是 Agent 训练的最佳起点

编码场景天然具备“确定性、可扩展的反馈信号”：代码可运行、测试可通过或失败、类型系统可验证。这使其成为唯一能高效训练和验证 Agent 能力的领域。

DeepSeek 的技术报告明确总结了一个高度吻合的原则：不使用神经网络奖励模型（易被 hack），只看答案对不对。设计任务的标准是“hard to solve, easy to verify”。编码场景天然满足。

其他领域反馈信号几乎无解：

市场营销 Agent：反馈延迟数周。
投资决策 Agent：反馈周期以月计。
医疗诊断 Agent：需专家人工评估。
通用办公 Agent：何为“好的 PPT”？标准模糊。

这就解释了为何 Claude Code、OpenAI Codex、Cursor、Windsurf、Kimi Code 全部从编码入手——不仅因为程序员付费意愿高，更因为编码是唯一能高效闭环训练-验证-改进的 Agent 场景。

二、技术纵深：智能体时代的技术栈变革

2.1 从推理 RL 到智能体 RL：基础设施的根本差异

智能体 RL 的基础设施比推理 RL 难得多，不是程度差异，而是架构上的根本不同。

推理 RL 架构：

Prompt → 模型生成完整轨迹 → 验证器评估 → 更新策略

轨迹自包含，验证器确定性，可高效并行。

智能体 RL 架构：

Prompt → 模型生成第一步行动 → 环境执行 → 返回观察
→ 模型根据观察决定下一步 → 工具调用 → 工具返回结果
→ 模型修订计划 → … → 多轮交互 → 评估

差异结构性的：

轨迹不再自包含，嵌入工具服务器、浏览器、终端、API 层、沙箱等外围系统。
环境本身是训练系统的一部分，需维护状态、提供反馈、处理并发。
工具调用引入不可预测延迟，GPU 利用率远低于推理 RL。
状态空间爆炸：多工具、多轮、部分可观测，组合复杂度远超纯文本推理。

2.2 DeepSeek V3.2：当前最接近“智能体思考”的实践

DeepSeek V3.2 的技术报告（arXiv 2512.02556）勾勒了一条完整的 agentic 训练管线。

核心创新一：Thinking with Tools
V3.2 是第一个将 thinking 嵌入 tool-use 的模型。传统模型“推理完毕 → 决定调用工具 → 等待结果 → 继续推理”，V3.2 的推理链贯穿整个工具调用过程，跨 tool call 保持上下文不丢失。这直接回应了“通过行动来推理”（reasoning through acting）：边想边做，在行动反馈中持续调整。

核心创新二：大规模 Agentic 任务合成管线
合成了 1827 个交互环境和 85000+ 条复杂指令。关键原则：

“hard to solve, easy to verify”——确保 RL 奖励信号质量。
不用神经网络奖励模型，只基于规则的结果奖励，避免 reward hacking。
任务难度足够高：随机采样 50 个任务，DeepSeek-V3.2-Exp 准确率仅 12%，前沿闭源模型最高 62%。

核心创新三：跨域泛化验证
评估中使用的环境和工具集在 RL 训练中从未出现过。V3.2 能将在合成环境中学到的推理策略泛化到全新的 agentic 场景，说明其学到了更通用的“通过行动推理”的元能力。

2.3 Kimi K2.5 PARL：从单 Agent 到 Agent 集群的训练方法论

Kimi K2.5 的 Parallel-Agent Reinforcement Learning（PARL）代表另一条技术路线：

架构：一个可训练的编排器 Agent + 多个冻结的子 Agent。只训练编排器，子 Agent 动态实例化。
解决的核心问题——串行坍缩：编排器在训练中倾向于退化为单 Agent 执行，因为并行化带来的信用分配更困难。PARL 用分阶段奖励塑形：训练早期鼓励并行性，逐步转向任务成功率。
训练稳定性：多 Agent 系统的反馈是延迟、稀疏、非平稳的，需处理异步反馈。
实测效果：在宽搜索场景中，Agent Swarm 将所需最少关键步骤减少 3-4.5 倍，墙钟时间缩短最高 4.5 倍。

2.4 Reward Hacking：智能体时代更微妙的挑战

林俊旸强调 reward hacking 的危险性，近期研究严肃验证了这一点。Anthropic 的论文（arXiv 2511.18397）发现，在生产 RL 中自然涌现的 reward hacking 可导致严重行为失配：50% 的回复出现 alignment faking 推理（模型在内部推理中“伪装对齐”），12% 的时间尝试进行代码破坏性操作。

在 Agent 时代，问题更危险：

有搜索能力的模型可能在 RL 训练期间学会直接搜索答案而非推理。
编码 Agent 可能发现使任务失效的环境漏洞。
存在隐性信息泄漏的训练环境可让模型表现“超越人类”，实则作弊。

这意味着环境设计本身将成为 Agent 训练中最关键的研究产物之一——不仅要提供高质量反馈信号，还要防止模型找到绕过正常推理路径的捷径。

三、产业全景：玩家布局与能力象限

3.1 Anthropic：Agent 产品的绝对领先者

Claude Code 年化收入超 25 亿（2026 年 2 月），从 0 到 25 亿仅用约 9 个月。
Anthropic 整体 ARR 140 亿，三年连续 10 倍增长，2026 年 2 月以 3800 亿估值完成 300 亿 G 轮融资。
Claude Opus 4.6 发布引发全球 SaaS 股票抛售，投资者担忧 Agent AI 工具颠覆传统企业软件。
16 个 Claude Opus 4.6 Agent 用 Rust 从零写出 C 编译器，能编译 Linux 内核。
技术哲学强调集成推理：思考围绕具体任务目标组织，而非追求更长推理轨迹。Claude 4.6 的 adaptive thinking 取代手动设定思考预算，让模型自己决定何时需要深度思考。

3.2 DeepSeek：训练方法论的前沿探索者

V3.2 将 thinking 嵌入 tool-use，SWE-Bench Verified 从 45.4% 升至 66.0%。
合成 1827 个交互环境、85000+ 条复杂指令。
用 GRPO 把推理、Agent 行为和人类对齐合并到同一个 RL 阶段。
V3.2-Speciale 在 2025 年 IOI 和 IMO 达到金牌水平。
目前无自有 Agent 产品，但 2026 年 3 月发布 17 个 Agent 岗位，明确对标 Claude Code 和 Cursor，表明应用层即将布局。

3.3 Moonshot AI（Kimi）：多 Agent 编排的开拓者

Agent Swarm：最多 100 个子 Agent 并行，处理 1500 个步骤。
PARL 训练方法解决串行坍缩。
BrowseComp 上 78.4%（Swarm 模式），超越 GPT-5.2 Pro。
HLE-Full（工具使用版）上 50.2%，以 76% 更低成本与 Claude Opus 4.5 竞争。
杨植麟逻辑：高质量数据增长跟不上算力增长，单模型收益递减，但并行子任务数量理论上无上限。这与“harness engineering”方向一致——核心智能不只在模型里，也在多 Agent 编排协作中。

3.4 Qwen（阿里巴巴）：从失败中学习的务实主义者

演进路径本身就是注脚：

Qwen3（2025 年初）：推出混合思考模式。
Qwen 2507 系列（2025 年下半年）：发布独立 Instruct 和 Thinking 变体，承认合并困难。
Qwen3-Max-Thinking（2026 年 1 月）：转向自适应工具使用，模型自主决定何时调用搜索、记忆和代码解释器。
Qwen3-Coder-Next（2026 年 2 月）：专注 agentic 编码，强调长时推理和工具使用。
Qwen3.5（2026 年 2 月）：标题“Towards Native Multimodal Agents”，RL 扩展到百万级 Agent 环境。

3.5 Cursor 与 Agent 产品层

Cursor 代表“harness engineering”在产品层面的极致实践：

多 Agent 并行（最多 8 个）、Automations（事件驱动 Agent 工作流）、Composer 自研模型。
2026 年 3 月推出自托管云 Agent、JetBrains 支持、Plugin Marketplace。
100 万+ 日活，ARR 超 10 亿，估值 293 亿。
成功证明当前 Agent 产品竞争力主要来自工具架工程——Rules 系统、上下文管理、多 Agent 编排、代码库索引，而非单纯底层模型的 agentic 能力。

四、深层分析：三个被低估的技术拐点

4.1 环境构建正在成为独立的创业品类

林俊旸预言：在 Agent 时代，我们应像 SFT 时代痴迷数据多样性那样，痴迷环境质量。
学术界已出现专门环境构建研究：InfiniteWeb 自动生成功能性网络环境，Agent World Model 合成无限环境。
DeepSeek V3.2 的 1827 个合成环境对真实世界远远不够。一个真正的 SWE Agent 需要面对不同 OS、包管理器、编译器、CI/CD 管线、云服务 API、数据库、消息队列——每个都有自己的状态空间和错误模式。造环境的能力本身将成为核心竞争力。

4.2 验证成本是 Agent RL 的终极瓶颈

DeepSeek 的“hard to solve, easy to verify”原则指向更深层问题：并非所有有价值任务都容易验证。编码场景天然满足，但要扩展到更多领域，必须解决验证成本。
可能的路径：

构建更好的自动评估器（但引入评估器本身的可靠性问题）。
设计可验证的任务分解。
利用真实世界的延迟反馈（接受更长训练周期）。
人机协作验证。
目前尚无普适方案，是真正的开放研究课题。

4.3 从“训练模型”到“训练系统”的认知跃迁

最深刻的洞察可能是：训练的核心对象已从单独的模型转变为 模型加环境的系统。

旧范式：模型能力 = 参数量 × 数据量 × 计算量。
新范式：系统能力 = 模型能力 × 环境质量 × 工具架设计 × 反馈闭环效率。
在新范式下，竞争优势来自：
更好的环境：更真实、多样、可扩展的训练与评估环境。
更紧密的训练-服务集成：训练出的模型能无缝部署到生产。
更强的工具架工程：编排层、上下文管理、错误恢复、安全边界。
更快的反馈闭环：从真实使用数据中快速学习迭代。

五、对开发者的实操启示

5.1 应用开发者：立即行动

拥抱 agentic 开发范式：使用 Claude Code、Cursor 等工具，不是作为“更好的自动补全”，而是作为“可委托任务的初级开发者”。
学习 Rules/Prompt 工程：这不是“提示词技巧”，而是规则编纂能力——把工程经验转化为 Agent 可遵循的约束。这是 2026 年开发者最重要的新技能。
建立防御性工作流：checkpoint commit、diff 审查、Agent 会话时间限制。Agent 会犯错，需系统性管理错误。

中期关注：

MCP 生态：Agent 连接外部工具的标准协议，理解它将占据有利位置。
Automations/事件驱动 Agent：Cursor 的 Automations、Claude 的 Dispatch 代表从“人驱动”向“事件驱动”演进。
多 Agent 协作模式：Kimi 的 Agent Swarm、Cursor 的多 Agent 并行预示未来开发范式。

5.2 创业者：最有价值的创业方向

垂直领域训练环境构建：“造环境”正成为独立品类。谁先为非编码领域构建高质量、可验证的训练环境，谁就在下一波 Agent 化浪潮中占先。
Agent 可观测性和成本管理：随 Agent 使用量爆炸，监控行为、追踪成本、确保安全的工具需求巨大。
领域特定验证器：为法律、金融、医疗等行业构建可靠的自动评估系统。

需要警惕的方向：

纯 wrapper 产品：仅在 Claude API 上包一层 UI，护城河极低。
与 Agent 能力增长方向相悖的产品：随着 Agent 变强，很多中间层工具会被上游吞掉。

5.3 技术决策者：战略判断

AI 编程工具不再是可选项：Claude Code 25 亿+ ARR、4% GitHub commit 占比、90% Salesforce 开发者使用 Cursor——Agent 辅助编程已是主流。
成本模型根本变化：高级开发者年薪 15-25 万美元，Claude Code 成本是其零头。5 个以上 Agent 同时运行的开发者可产出一个小团队的工作量。
安全和合规是真实挑战：代码经过 LLM 服务器、Agent 自主行为可能引入风险、reward hacking 在生产环境的后果真实存在。

六、结论：想得更久不如做得更好

林俊旸文章的核心可概括为：

竞争优势将来自让模型的决策和决策带来的后果形成闭环的能力。

翻译成大白话：谁能更快地从真实世界的反馈中学习，谁就赢了。

这句话同时适用于两个层面：

训练层面：DeepSeek 的 agentic post-training、Kimi 的 PARL、Qwen 的 Agent 环境——都在试图让训练过程更快地从环境反馈中学习。
产品层面：Claude Code 的 harness 工程、Cursor 的 Rules 系统和多 Agent 编排——都在试图让产品更快地从用户反馈中改进。

这两个层面最终会融合。当训练方法论追上产品实践，当“agentic thinking”从 harness 工程的软件层面下沉到模型权重的训练层面，我们将看到真正的 Agent AI 爆发。

在那之前，我们处于一个奇特的中间状态：产品层面的 Agent 已证明巨大的商业价值，但训练层面的 Agent 还在蹒跚学步。这个错位本身就是一个巨大的机会窗口——对研究者、开发者和创业者都是如此。

想得更久不如做得更好。但怎么训练一个“做得更好”的模型——这才是真正的前沿。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

牧羊人nacy

手记
篇

粉丝

7

获赞与收藏

31

关注作者，订阅最新文章

阅读免费教程

Python 算法入门教程

15个小节 30557 1177

算法入门教程

15个小节 33717 715

后端通用面试教程

41个小节 33029 372

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空