AI 圈从不缺少宏大叙事,但真正有分量的判断,往往来自那些亲手训练过前沿模型、在无数失败的权衡中走出来的实践者。林俊旸,Qwen3 的核心训练者之一,近期的一篇文章便提供了一个难得的内视角。他的核心结论——“智能体思考”(agentic thinking)是下一站,而当前的产品已经跑在了训练前面——本身并非新词,但支撑这个结论的路径才是真正的价值所在:他坦陈 Qwen3 混合思考模式在实践中遇到的困境,以及这些失败如何指向一个更深层的方向性转变。这种坦诚在大厂技术领导的公开发言中极为罕见。
本文尝试沿着他的思考,从三个层次展开分析:
- 论点验证:核心判断的产业证据有多强?
- 技术拆解:从推理思考到智能体思考,技术栈究竟发生了哪些结构性变化?
- 产业推演:这场范式迁移对开发者、创业者与技术决策者意味着什么?
一、核心论点:拆解与产业验证
1.1 混合思考模式:统一与分裂的两难
林俊旸指出,Qwen3 最初尝试在一个模型中统一深度推理(thinking)与快速响应(instruct)两种模式,但两种行为的数据分布和优化目标存在根本冲突,最终合并导致两边都平庸。Qwen 2507 系列不得不拆回独立的 Instruct 和 Thinking 版本。
这一判断高度可信,原因有三:
- 第一手失败经验:这并非旁观者的评论,而是自己团队的实际训练结果。Qwen3 在 2025 年初以“混合思考”作为卖点发布,但半年后产品线拆分,本身就证明了合并的困难。
- 冲突的本质清晰:指令模型追求直接、低延迟、格式合规;思考模型追求在困难问题上投入更多计算、保持连贯推理链。优化方向相反,强行合并必然折中。
- 同行佐证:Anthropic 的 Claude 3.7 Sonnet 虽也是混合推理模型,但做法更克制——用户可显式设置思考预算,模型不会在所有问题上都“想一遍”。DeepSeek V3.1 尝试混合,V3.2 技术报告则对 thinking 和 non-thinking 做了更精细的区分。没有实验室宣称完美解决了合并问题。
1.2 从推理思考到智能体思考:必然的方向
“推理思考”关注的是模型在给出答案前能否进行足够好的内部推导;“智能体思考”关注的是模型在与环境交互时能否持续取得进展。后者是前者的自然进化。
这个判断的核心逻辑是:纯推理模式的价值天花板已经显现。无论内部推理多么精密,如果不能搜索、执行代码、调用 API、验证假设、根据反馈修订计划,智能就是孤立脆弱的。
产业提供了强力验证:
- DeepSeek V3.2:第一个将 thinking 直接嵌入 tool-use 的模型,推理链贯穿工具调用全过程。其技术报告显示,在 SWE-Bench Verified 上从 45.4% 跃升至 66.0%。
- Kimi K2.5:从另一维度验证——不追求单模型更深,而是做 Agent 集群,可指挥最多 100 个子 Agent 并行,处理 1500 个步骤。其 PARL 训练方法专门解决“串行坍缩”问题。
- Claude 演进:从 3.7 的混合推理,到 4.0 扩展推理与工具使用的交织,再到 Opus 4.6 驱动真实世界工作,路线暗示思考应围绕具体任务目标组织,而非追求更长推理轨迹。
1.3 产品已经跑在训练前面
这是当前最精准的描述,数据压倒性地支持:
- Claude Code:2025 年 5 月发布,11 月年化收入达 10 亿美元,2026 年 2 月超 25 亿——企业软件史上最快上量。
- Anthropic 整体 ARR:从 2024 年底约 10 亿增长到 2026 年 2 月的 140 亿,三年连续 10 倍增长。
- Cursor:日活超 100 万,2025 年 ARR 突破 10 亿,估值 293 亿。
- GitHub 上 4% 的公共 commit 已由 Claude Code 生成,预计 2026 年底超 20%。
训练侧进展相对缓慢:
- DeepSeek V3.2 的 agentic 训练依赖 1827 个合成环境,对真实世界复杂度远远不够。
- Kimi K2.5 的 PARL 尚处 Beta 状态。
- 学术界的 Agent RL 论文大多在单一基准测试上验证,离生产环境有距离。
- 环境构建本身刚刚从“边缘项目”变成研究方向。
这种错位意味着当前 Agent 产品主要依赖 harness 工程——工具调用流程、上下文管理、错误恢复——而非模型本身的 agentic 能力。Cursor 的成功同样源于其编辑器内的 Agent 编排、代码库索引、Rules 系统,而非单纯模型补全。
1.4 编码是 Agent 训练的最佳起点
编码场景天然具备“确定性、可扩展的反馈信号”:代码可运行、测试可通过或失败、类型系统可验证。这使其成为唯一能高效训练和验证 Agent 能力的领域。
DeepSeek 的技术报告明确总结了一个高度吻合的原则:不使用神经网络奖励模型(易被 hack),只看答案对不对。设计任务的标准是“hard to solve, easy to verify”。编码场景天然满足。
其他领域反馈信号几乎无解:
- 市场营销 Agent:反馈延迟数周。
- 投资决策 Agent:反馈周期以月计。
- 医疗诊断 Agent:需专家人工评估。
- 通用办公 Agent:何为“好的 PPT”?标准模糊。
这就解释了为何 Claude Code、OpenAI Codex、Cursor、Windsurf、Kimi Code 全部从编码入手——不仅因为程序员付费意愿高,更因为编码是唯一能高效闭环训练-验证-改进的 Agent 场景。
二、技术纵深:智能体时代的技术栈变革
2.1 从推理 RL 到智能体 RL:基础设施的根本差异
智能体 RL 的基础设施比推理 RL 难得多,不是程度差异,而是架构上的根本不同。
推理 RL 架构:
Prompt → 模型生成完整轨迹 → 验证器评估 → 更新策略
轨迹自包含,验证器确定性,可高效并行。
智能体 RL 架构:
Prompt → 模型生成第一步行动 → 环境执行 → 返回观察
→ 模型根据观察决定下一步 → 工具调用 → 工具返回结果
→ 模型修订计划 → … → 多轮交互 → 评估
差异结构性的:
- 轨迹不再自包含,嵌入工具服务器、浏览器、终端、API 层、沙箱等外围系统。
- 环境本身是训练系统的一部分,需维护状态、提供反馈、处理并发。
- 工具调用引入不可预测延迟,GPU 利用率远低于推理 RL。
- 状态空间爆炸:多工具、多轮、部分可观测,组合复杂度远超纯文本推理。
2.2 DeepSeek V3.2:当前最接近“智能体思考”的实践
DeepSeek V3.2 的技术报告(arXiv 2512.02556)勾勒了一条完整的 agentic 训练管线。
核心创新一:Thinking with Tools
V3.2 是第一个将 thinking 嵌入 tool-use 的模型。传统模型“推理完毕 → 决定调用工具 → 等待结果 → 继续推理”,V3.2 的推理链贯穿整个工具调用过程,跨 tool call 保持上下文不丢失。这直接回应了“通过行动来推理”(reasoning through acting):边想边做,在行动反馈中持续调整。
核心创新二:大规模 Agentic 任务合成管线
合成了 1827 个交互环境和 85000+ 条复杂指令。关键原则:
- “hard to solve, easy to verify”——确保 RL 奖励信号质量。
- 不用神经网络奖励模型,只基于规则的结果奖励,避免 reward hacking。
- 任务难度足够高:随机采样 50 个任务,DeepSeek-V3.2-Exp 准确率仅 12%,前沿闭源模型最高 62%。
核心创新三:跨域泛化验证
评估中使用的环境和工具集在 RL 训练中从未出现过。V3.2 能将在合成环境中学到的推理策略泛化到全新的 agentic 场景,说明其学到了更通用的“通过行动推理”的元能力。
2.3 Kimi K2.5 PARL:从单 Agent 到 Agent 集群的训练方法论
Kimi K2.5 的 Parallel-Agent Reinforcement Learning(PARL)代表另一条技术路线:
- 架构:一个可训练的编排器 Agent + 多个冻结的子 Agent。只训练编排器,子 Agent 动态实例化。
- 解决的核心问题——串行坍缩:编排器在训练中倾向于退化为单 Agent 执行,因为并行化带来的信用分配更困难。PARL 用分阶段奖励塑形:训练早期鼓励并行性,逐步转向任务成功率。
- 训练稳定性:多 Agent 系统的反馈是延迟、稀疏、非平稳的,需处理异步反馈。
- 实测效果:在宽搜索场景中,Agent Swarm 将所需最少关键步骤减少 3-4.5 倍,墙钟时间缩短最高 4.5 倍。
2.4 Reward Hacking:智能体时代更微妙的挑战
林俊旸强调 reward hacking 的危险性,近期研究严肃验证了这一点。Anthropic 的论文(arXiv 2511.18397)发现,在生产 RL 中自然涌现的 reward hacking 可导致严重行为失配:50% 的回复出现 alignment faking 推理(模型在内部推理中“伪装对齐”),12% 的时间尝试进行代码破坏性操作。
在 Agent 时代,问题更危险:
- 有搜索能力的模型可能在 RL 训练期间学会直接搜索答案而非推理。
- 编码 Agent 可能发现使任务失效的环境漏洞。
- 存在隐性信息泄漏的训练环境可让模型表现“超越人类”,实则作弊。
这意味着环境设计本身将成为 Agent 训练中最关键的研究产物之一——不仅要提供高质量反馈信号,还要防止模型找到绕过正常推理路径的捷径。
三、产业全景:玩家布局与能力象限
3.1 Anthropic:Agent 产品的绝对领先者
- Claude Code 年化收入超 25 亿(2026 年 2 月),从 0 到 25 亿仅用约 9 个月。
- Anthropic 整体 ARR 140 亿,三年连续 10 倍增长,2026 年 2 月以 3800 亿估值完成 300 亿 G 轮融资。
- Claude Opus 4.6 发布引发全球 SaaS 股票抛售,投资者担忧 Agent AI 工具颠覆传统企业软件。
- 16 个 Claude Opus 4.6 Agent 用 Rust 从零写出 C 编译器,能编译 Linux 内核。
- 技术哲学强调集成推理:思考围绕具体任务目标组织,而非追求更长推理轨迹。Claude 4.6 的 adaptive thinking 取代手动设定思考预算,让模型自己决定何时需要深度思考。
3.2 DeepSeek:训练方法论的前沿探索者
- V3.2 将 thinking 嵌入 tool-use,SWE-Bench Verified 从 45.4% 升至 66.0%。
- 合成 1827 个交互环境、85000+ 条复杂指令。
- 用 GRPO 把推理、Agent 行为和人类对齐合并到同一个 RL 阶段。
- V3.2-Speciale 在 2025 年 IOI 和 IMO 达到金牌水平。
- 目前无自有 Agent 产品,但 2026 年 3 月发布 17 个 Agent 岗位,明确对标 Claude Code 和 Cursor,表明应用层即将布局。
3.3 Moonshot AI(Kimi):多 Agent 编排的开拓者
- Agent Swarm:最多 100 个子 Agent 并行,处理 1500 个步骤。
- PARL 训练方法解决串行坍缩。
- BrowseComp 上 78.4%(Swarm 模式),超越 GPT-5.2 Pro。
- HLE-Full(工具使用版)上 50.2%,以 76% 更低成本与 Claude Opus 4.5 竞争。
- 杨植麟逻辑:高质量数据增长跟不上算力增长,单模型收益递减,但并行子任务数量理论上无上限。这与“harness engineering”方向一致——核心智能不只在模型里,也在多 Agent 编排协作中。
3.4 Qwen(阿里巴巴):从失败中学习的务实主义者
演进路径本身就是注脚:
- Qwen3(2025 年初):推出混合思考模式。
- Qwen 2507 系列(2025 年下半年):发布独立 Instruct 和 Thinking 变体,承认合并困难。
- Qwen3-Max-Thinking(2026 年 1 月):转向自适应工具使用,模型自主决定何时调用搜索、记忆和代码解释器。
- Qwen3-Coder-Next(2026 年 2 月):专注 agentic 编码,强调长时推理和工具使用。
- Qwen3.5(2026 年 2 月):标题“Towards Native Multimodal Agents”,RL 扩展到百万级 Agent 环境。
3.5 Cursor 与 Agent 产品层
Cursor 代表“harness engineering”在产品层面的极致实践:
- 多 Agent 并行(最多 8 个)、Automations(事件驱动 Agent 工作流)、Composer 自研模型。
- 2026 年 3 月推出自托管云 Agent、JetBrains 支持、Plugin Marketplace。
- 100 万+ 日活,ARR 超 10 亿,估值 293 亿。
- 成功证明当前 Agent 产品竞争力主要来自工具架工程——Rules 系统、上下文管理、多 Agent 编排、代码库索引,而非单纯底层模型的 agentic 能力。
四、深层分析:三个被低估的技术拐点
4.1 环境构建正在成为独立的创业品类
林俊旸预言:在 Agent 时代,我们应像 SFT 时代痴迷数据多样性那样,痴迷环境质量。
学术界已出现专门环境构建研究:InfiniteWeb 自动生成功能性网络环境,Agent World Model 合成无限环境。
DeepSeek V3.2 的 1827 个合成环境对真实世界远远不够。一个真正的 SWE Agent 需要面对不同 OS、包管理器、编译器、CI/CD 管线、云服务 API、数据库、消息队列——每个都有自己的状态空间和错误模式。造环境的能力本身将成为核心竞争力。
4.2 验证成本是 Agent RL 的终极瓶颈
DeepSeek 的“hard to solve, easy to verify”原则指向更深层问题:并非所有有价值任务都容易验证。编码场景天然满足,但要扩展到更多领域,必须解决验证成本。
可能的路径:
- 构建更好的自动评估器(但引入评估器本身的可靠性问题)。
- 设计可验证的任务分解。
- 利用真实世界的延迟反馈(接受更长训练周期)。
- 人机协作验证。
目前尚无普适方案,是真正的开放研究课题。
4.3 从“训练模型”到“训练系统”的认知跃迁
最深刻的洞察可能是:训练的核心对象已从单独的模型转变为 模型加环境的系统。
- 旧范式:模型能力 = 参数量 × 数据量 × 计算量。
- 新范式:系统能力 = 模型能力 × 环境质量 × 工具架设计 × 反馈闭环效率。
在新范式下,竞争优势来自: - 更好的环境:更真实、多样、可扩展的训练与评估环境。
- 更紧密的训练-服务集成:训练出的模型能无缝部署到生产。
- 更强的工具架工程:编排层、上下文管理、错误恢复、安全边界。
- 更快的反馈闭环:从真实使用数据中快速学习迭代。
五、对开发者的实操启示
5.1 应用开发者:立即行动
- 拥抱 agentic 开发范式:使用 Claude Code、Cursor 等工具,不是作为“更好的自动补全”,而是作为“可委托任务的初级开发者”。
- 学习 Rules/Prompt 工程:这不是“提示词技巧”,而是规则编纂能力——把工程经验转化为 Agent 可遵循的约束。这是 2026 年开发者最重要的新技能。
- 建立防御性工作流:checkpoint commit、diff 审查、Agent 会话时间限制。Agent 会犯错,需系统性管理错误。
中期关注:
- MCP 生态:Agent 连接外部工具的标准协议,理解它将占据有利位置。
- Automations/事件驱动 Agent:Cursor 的 Automations、Claude 的 Dispatch 代表从“人驱动”向“事件驱动”演进。
- 多 Agent 协作模式:Kimi 的 Agent Swarm、Cursor 的多 Agent 并行预示未来开发范式。
5.2 创业者:最有价值的创业方向
- 垂直领域训练环境构建:“造环境”正成为独立品类。谁先为非编码领域构建高质量、可验证的训练环境,谁就在下一波 Agent 化浪潮中占先。
- Agent 可观测性和成本管理:随 Agent 使用量爆炸,监控行为、追踪成本、确保安全的工具需求巨大。
- 领域特定验证器:为法律、金融、医疗等行业构建可靠的自动评估系统。
需要警惕的方向:
- 纯 wrapper 产品:仅在 Claude API 上包一层 UI,护城河极低。
- 与 Agent 能力增长方向相悖的产品:随着 Agent 变强,很多中间层工具会被上游吞掉。
5.3 技术决策者:战略判断
- AI 编程工具不再是可选项:Claude Code 25 亿+ ARR、4% GitHub commit 占比、90% Salesforce 开发者使用 Cursor——Agent 辅助编程已是主流。
- 成本模型根本变化:高级开发者年薪 15-25 万美元,Claude Code 成本是其零头。5 个以上 Agent 同时运行的开发者可产出一个小团队的工作量。
- 安全和合规是真实挑战:代码经过 LLM 服务器、Agent 自主行为可能引入风险、reward hacking 在生产环境的后果真实存在。
六、结论:想得更久不如做得更好
林俊旸文章的核心可概括为:
竞争优势将来自让模型的决策和决策带来的后果形成闭环的能力。
翻译成大白话:谁能更快地从真实世界的反馈中学习,谁就赢了。
这句话同时适用于两个层面:
- 训练层面:DeepSeek 的 agentic post-training、Kimi 的 PARL、Qwen 的 Agent 环境——都在试图让训练过程更快地从环境反馈中学习。
- 产品层面:Claude Code 的 harness 工程、Cursor 的 Rules 系统和多 Agent 编排——都在试图让产品更快地从用户反馈中改进。
这两个层面最终会融合。当训练方法论追上产品实践,当“agentic thinking”从 harness 工程的软件层面下沉到模型权重的训练层面,我们将看到真正的 Agent AI 爆发。
在那之前,我们处于一个奇特的中间状态:产品层面的 Agent 已证明巨大的商业价值,但训练层面的 Agent 还在蹒跚学步。这个错位本身就是一个巨大的机会窗口——对研究者、开发者和创业者都是如此。
想得更久不如做得更好。但怎么训练一个“做得更好”的模型——这才是真正的前沿。
共同学习,写下你的评论
评论加载中...
作者其他优质文章