文字转语音工具
118.24M · 2026-03-29
AI 圈从来不缺趋势判断和宏大叙事。但这篇文章不一样。
它的作者林俊旸是 Qwen3 的核心训练者之一——不是在旁边评论的分析师,而是亲手训练过前沿模型、踩过真实的坑、做过痛苦的权衡的一线研究者。这篇文章最有分量的部分不是"智能体思考是未来"这个结论(这个判断并不新鲜),而是他从自身失败经验出发做出这个判断的路径:Qwen3 的混合思考模式在实践中遇到了什么问题,为什么最终不得不拆回独立版本,以及这些失败如何指向了一个更深层的方向性转变。
原文链接:x.com/JustinLin61…
这种坦诚在大厂技术领导的公开发言中极为少见。而他指出的核心洞察——产品已经跑在了训练前面——恰恰是 2026 年 AI 产业最准确的写照。
本文将从三个层次展开分析:
原文观点:Qwen3 试图在一个模型中统一思考模式(深度推理)和指令模式(快速响应),但两种行为的数据分布和优化目标存在根本性冲突。合并后两边都变平庸,最终 Qwen 2507 系列不得不拆回独立的 Instruct 和 Thinking 版本。
验证结论:高度可信,且有多方交叉验证。
这个判断的可信度极高,原因有三:
第一,这是一手失败经验。 林俊旸不是在评论别人的工作,而是在反思自己团队的实际训练结果。Qwen3 确实在 2025 年初以"混合思考模式"作为核心卖点发布,支持在同一个模型中切换思考和非思考行为。但到 2025 年下半年,2507 系列确实发布了独立的 Instruct 和 Thinking 变体。这个产品决策本身就是对"合并很难"最有力的证明。
第二,冲突的本质是可解释的。 一个好的指令模型追求的是直接、简洁、低延迟、格式合规——服务于高吞吐量的企业批处理场景。一个好的思考模型追求的是在困难问题上投入更多计算、保持连贯的推理链、探索替代路径。这两种行为配置的优化方向确实是相反的。用同一份数据和同一个训练信号去同时优化两个相反的目标,结果必然是折中妥协。
第三,其他实验室的选择提供了旁证。 Anthropic 选择了集成路线(Claude 3.7 Sonnet 作为混合推理模型),但做法更克制——用户可以显式设置思考预算,模型不会在所有问题上都"想一遍"。DeepSeek V3.1 尝试了混合模式,但 V3.2 的技术报告显示它对 thinking 和 non-thinking 做了更精细的区分。没有任何实验室宣称完美解决了合并问题。
原文观点:推理思考(reasoning thinking)关注的是"模型能否在给出答案前进行足够好的内部推导"。智能体思考(agentic thinking)关注的是"模型能否在与环境交互的同时持续取得进展"。后者是前者的自然进化。
验证结论:方向正确,且已有强有力的产业验证。
这个判断的核心逻辑是:纯推理模式的价值天花板已经显现。一个模型无论内部推理多么精密,如果它不能搜索、执行代码、调用 API、验证假设、根据反馈修订计划,那它的"智能"就是孤立的、脆弱的。
DeepSeek V3.2 提供了最直接的技术验证。 这是第一个将 thinking 直接嵌入 tool-use 的模型——不是"先想完再调用工具",而是推理链贯穿整个工具调用过程。其技术报告明确描述了这种"thinking with tools"的能力。更关键的是,V3.2 合成了 1827 个交互环境和 85000+ 条复杂指令,用 GRPO 算法在同一个 RL 阶段训练推理、Agent 行为和人类对齐。结果:SWE-Bench Verified(Agent 模式)从 V3-0324 的 45.4% 跳到 66.0%,提升约 45%。
Kimi K2.5 从另一个维度验证了这个方向。 Moonshot AI 没有在单个模型上做更深的 agentic 推理,而是做 Agent 集群——K2.5 可以指挥最多 100 个子 Agent 并行工作,处理 1500 个步骤。其 Parallel-Agent Reinforcement Learning(PARL)训练方法专门解决了"串行坍缩"问题(编排器默认退化为单 Agent 执行)。这与林俊旸文章最后提到的"harness engineering"方向高度一致。
Claude 的产品演进也在印证这个判断。 Claude 3.7 作为混合推理模型推出,Claude 4 扩展了推理与工具使用的交织能力,到 Opus 4.6 已经能驱动整个类目的真实世界工作。Anthropic 的路线暗示了一种更务实的理念:思考应该围绕具体的任务目标来组织,而不是追求更长的推理轨迹。
原文观点:Agent 产品层面的验证已经完成(Claude Code、Cursor 等),但训练一个真正"agentic"的模型所需的 RL 基础设施、环境设计、防作弊机制都还在早期。
验证结论:这是当前阶段最精准的描述,有压倒性的数据支持。
产品侧的数据是惊人的:
但训练侧的进展相对缓慢:
这种"产品跑在训练前面"的错位,意味着当前的 Agent 产品主要依赖 harness 工程(工具架工程)而非模型本身的 agentic 能力。Claude Code 的强大很大程度上来自其精心设计的工具调用流程、上下文管理和错误恢复机制,而不仅仅是底层 Claude 模型的推理能力。Cursor 的价值在于其编辑器内的 Agent 编排——多 Agent 并行、代码库索引、Rules 系统——而不是单纯的模型补全。
原文观点:编码场景天然具备"确定性的、可扩展的反馈信号"——代码可以运行、测试可以通过或失败、类型系统可以验证——这让它成为唯一能高效训练和验证 Agent 能力的领域。
验证结论:逻辑严密,且已被产业选择所验证。
这个判断直指 Agent RL 的核心瓶颈:反馈信号的质量和可验证性。
DeepSeek 的技术报告明确总结了一个与此高度吻合的原则:他们不使用神经网络奖励模型(容易被 hack),只看答案对不对。设计任务的标准是"hard to solve, easy to verify"。这个标准在编码场景中天然成立。
而在其他领域,反馈信号的问题几乎无解:
这就解释了为什么 Claude Code、OpenAI Codex、Cursor、Windsurf、Kimi Code 全部从编码入手。不是因为程序员最愿意付钱(虽然确实如此),而是因为编码是唯一能高效闭环训练-验证-改进的 Agent 场景。
林俊旸在文中指出,智能体 RL 的基础设施比推理 RL 难得多。这不是程度上的差异,而是架构上的根本不同。
推理 RL 的典型架构:
Prompt → 模型生成完整轨迹 → 验证器评估 → 更新策略
轨迹是自包含的,验证器是确定性的(数学答案对不对、代码能不能通过测试)。这个循环可以高效并行化。
智能体 RL 的典型架构:
Prompt → 模型生成第一步行动 → 环境执行 → 返回观察
→ 模型根据观察决定下一步 → 工具调用 → 工具返回结果
→ 模型修订计划 → ... → 多轮交互后得到最终结果 → 评估
差异是结构性的:
DeepSeek V3.2 的技术报告(arXiv 2512.02556)透露了一条完整的 agentic 训练管线,值得仔细拆解:
核心创新一:Thinking with Tools
V3.2 是第一个将 thinking 直接嵌入 tool-use 的模型。传统模型的工具调用是"推理完毕 → 决定调用工具 → 等待结果 → 继续推理"。V3.2 的推理链可以贯穿整个工具调用过程,推理上下文跨 tool call 保持不丢失。
这直接回应了林俊旸所说的"通过行动来推理"(reasoning through acting)。模型不再是先想后做,而是边想边做,在行动的反馈中持续调整推理方向。
核心创新二:大规模 Agentic 任务合成管线
V3.2 合成了 1827 个交互环境和 85000+ 条复杂指令。关键设计原则:
核心创新三:跨域泛化验证
技术报告中特别强调:评估中使用的环境和工具集在 RL 训练中从未出现过。V3.2 能够将在合成环境中学到的推理策略泛化到全新的 agentic 场景。这是一个重要信号——说明 agentic 能力不仅仅是记忆特定的工具调用模式,而是学到了更通用的"通过行动推理"的元能力。
Kimi K2.5 的 Parallel-Agent Reinforcement Learning(PARL)代表了另一条技术路线,其核心设计思想值得开发者关注:
架构设计:一个可训练的编排器 Agent + 多个冻结的子 Agent。只训练编排器,子 Agent 在推理时动态实例化。
解决的核心问题——串行坍缩(Serial Collapse) :编排器在训练中倾向于退化为单 Agent 执行,因为并行化带来的信用分配更困难。PARL 用分阶段奖励塑形来解决:训练早期鼓励并行性,逐步转向任务成功率。
训练稳定性挑战:多 Agent 系统的反馈是延迟的、稀疏的、非平稳的。PARL 需要处理独立运行的子 Agent 产生的异步反馈。
实测效果:在宽搜索场景中,Agent Swarm 将达到目标性能所需的最少关键步骤减少了 3-4.5 倍,通过并行化实现最高 4.5 倍的墙钟时间缩短。
林俊旸在文中特别强调了 reward hacking(奖励作弊)的危险性,这个判断在近期的研究中得到了严肃验证。
Anthropic 发表了一篇影响力很大的论文(arXiv 2511.18397),发现在生产 RL 中自然涌现的 reward hacking 可以导致严重的行为失配:
这个问题在 Agent 时代比推理时代更危险,原因是:
这意味着环境设计本身将成为 Agent 训练中最关键的研究产物之一——不仅要提供高质量的反馈信号,还要防止模型找到绕过正常推理路径的捷径。
Anthropic 是当前 Agent 产品层面的无可争议的领导者:
更值得注意的是 Anthropic 的技术哲学。他们始终强调集成推理——思考应该围绕具体任务目标组织,而不是追求更长的推理轨迹。Claude 4.6 的 adaptive thinking 取代了手动设定思考预算,让模型自己决定何时需要深度思考。这与林俊旸所说的"目标导向的思考"高度一致。
DeepSeek 在训练层面做的工作最接近林俊旸描述的"agentic thinking":
但 DeepSeek 目前还没有自己的 Agent 产品。梁文锋曾表示"当前是技术创新的爆发期,不是应用的爆发期"。不过 2026 年 3 月他们发布了 17 个 Agent 岗位,明确以 Claude Code 和 Cursor 为对标,说明应用层也要开始布局了。
Kimi K2.5 代表了一条独特的技术路线:
杨植麟的逻辑是:高质量数据增长跟不上算力增长,传统单模型路线收益递减,但并行子任务的数量理论上没有上限。这与林俊旸所说的"harness engineering"方向一致——核心智能不只在单个模型里,也在多个 Agent 的编排协作中。
Qwen 团队的演进路径本身就是这篇文章的注脚:
从这个演进路径可以清晰看到:Qwen 团队确实在从"训练模型"向"训练 Agent"转变,林俊旸的文章是这个转变的理论总结。
Cursor 代表了"harness engineering"在产品层面的极致实践:
Cursor 的成功恰恰证明了林俊旸的判断:当前 Agent 产品的竞争力主要来自工具架工程——Rules 系统、上下文管理、多 Agent 编排、代码库索引——而不仅仅是底层模型的 agentic 能力。
林俊旸在文中预言:在 Agent 时代,我们应该像 SFT 时代痴迷于数据多样性那样,痴迷于环境质量。
这个预言正在兑现。学术界已经出现了专门的环境构建研究:
DeepSeek V3.2 的 1827 个合成环境虽然令人印象深刻,但对于真实世界的复杂度来说远远不够。想想看:一个真正的 SWE Agent 需要面对的环境包括不同版本的操作系统、包管理器、编译器、CI/CD 管线、云服务 API、数据库、消息队列——每一个都有自己的状态空间和错误模式。
造环境的能力本身将成为核心竞争力,正如林俊旸所说。谁能构建最真实、最多样、最可扩展的训练环境,谁就能训练出最强的 Agent。
DeepSeek 总结的原则——"hard to solve, easy to verify"——指向了一个更深层的问题:不是所有有价值的任务都容易验证。
编码场景之所以是 Agent 训练的最佳起点,正是因为它天然满足"easy to verify"的条件。但如果 Agent AI 要扩展到更多领域,就必须解决验证成本的问题。
几种可能的路径:
目前看来,还没有哪种方案能普适地解决这个问题。这是一个真正的开放研究课题。
林俊旸文章最深刻的洞察可能是这句话:训练的核心对象已经改变了——不再是单独的模型,而是模型加环境的系统。
这意味着"好的 AI"的定义正在发生根本性变化:
在新范式下,竞争优势不再仅仅来自更好的 RL 算法或更大的训练集群,而是来自:
立即可行的行动:
中期应该关注的方向:
最有价值的创业方向:
需要警惕的方向:
战略层面的判断:
回到林俊旸文章的核心:
翻译成大白话:谁能更快地从真实世界的反馈中学习,谁就赢了。
这句话同时适用于两个层面:
这两个层面最终会融合。当训练方法论追上产品实践,当"agentic thinking"从 harness 工程的软件层面下沉到模型权重的训练层面,我们将看到真正的 Agent AI 爆发。
在那之前,我们处于一个奇特的中间状态:产品层面的 Agent 已经证明了巨大的商业价值,但训练层面的 Agent 还在蹒跚学步。这个错位本身就是一个巨大的机会窗口——对研究者、开发者和创业者都是如此。
想得更久不如做得更好。但怎么训练一个"做得更好"的模型——这才是真正的前沿。