ng28(南宫)相信品牌的力量-林俊旸看到了什么

2026-04-13 19:39:34

首页财产ai正文林俊旸看到了甚么林俊旸脱离阿里巴巴后发布长文，认为AI技能正从推理式思索向智能体式思索改变，还有给出详细解法，指出情况构建将成创业新标的目的。 2026-03-27 14:12 ·硅星人王兆洋 AI投资人解读· AI技能正从推理式思索向智能体式思索蜕变，智能体式思索是经由过程步履推理的模子，能与情况闭环交互。如Anthropic做法受开导，思索应办事事情方针。 · 练习与推理需更清楚解耦，情况构建成热点创业标的目的。智能体时代比推理时代更懦弱邃密，要应答reward hacking等问题。总结：AI技能蜕变意义庞大，带来新的研究标的目的与竞争点。虽面对挑战，但智能体式思索潜力年夜，将来需存眷情况设计等要素，以鞭策AI成长并阐扬其上风。内容由AI天生，仅供参考

Ilya Sutskever脱离OpenAI的时辰，外界一度用一个半恶作剧的句式表达对于他其时于技能判定上的好奇。这个戏剧性的脱离决议暗地里，他毕竟对于其时技能成长线路有何思索：What did Ilya see?

今天好像也能够借用这个句式来会商方才脱离阿里巴巴，曾经卖力Qwen模子练习的林俊旸最新发布的一篇长文。

这是他脱离Qwen后发的*篇体系性的思索，这象征着它的许多不雅点来自在Qwen的练习历程，同时又离开了于这个团队里去会商它的局限。

一个真正操盘过今天最主要的模子之一的全数练习历程，同时可以避开纯内部视角做思索，并体系出现出来的研究者，今天没有几个，这篇文章也是以值患上细心浏览：What did Junyang see?

这篇标题问题为From "Reasoning" Thinking to "Agentic" Thinking的文章用英文首发于X上。全文中文翻译咱们放于文后。

及许多引起AI从业者广泛会商的长文同样，它测验考试给一个所有人都感触感染着的巨年夜变化一个描写及界说，而非于猜测甚么还有没发生的工作。

他认为AI技能蜕变现在履历的切换，是从推理式思索到agent式思索的变化。

他给后者的界说是：

Agentic thinking is a model that reasons through action.智能体式思索指的就是一个经由过程步履来推理的模子。

这些判定来自他本身对于各个前沿试验室所做测验考试的思索，以和于Qwen的练习上直接踩过的坑。

OpenAI的O系列打开了推理时代，但这些推理不敷矫捷，什么时候该快什么时候该慢，没法解决，Qwen的测验考试更是“没彻底做对于”，由于繁杂思索所需的练习，及反而是许多客户需要的直接快速回覆的练习，是冲突的。

于对于比各家做法里，他认为Anthropic的做法最有开导：思索应该为详细的事情方针办事。先判定方针使命类型，再对于应选择模子思索方式。如许，于编程等使命里，对于AI推理质量的判定尺度患上以从o系列的“永劫间，重历程”的框子里跳出，而且更主要的是，这个思索历程需要自然就带上东西挪用、自我纠错等能力。

如许一来，模子的推理成为更繁杂体系的一部门，新的推理能力需要经由过程对于一整个agent体系的练习来完成。

而与其他诸多雄文差别的是，他的内容没停于这，而是直接给出了他认为的详细解法。甚至，于外界广泛存眷他的下一步的现在，这也能够视作剧透：

除了了详细到诸如“练习及推理必需更清楚地解耦”，多agent体系里的分工，甚至是reward hacking 的详细有哪些“坑”等细节外，最主要的多是这个判定——

他认为跟着Agentic Thinking变患上主要，以往更多由模子本身主导智能前进时的许多尺度可以推翻了。

“练习的焦点对于象已经变，再也不是单一模子，而酿成了模子 + 情况组成的整个体系。更详细地说，是agent自己，配上缭绕它的一切工程。这象征着研究主要性也变了：模子架谈判练习数据天然是还有很主要，但情况设计、吞吐基础举措措施、评估器鲁棒性、以和多个agent之间的协调，主要性一点不亚在前者。”

这象征着竞争的点也酿成比拼谁有更好的练习情况及更强的体系工程能力，以和于实际世界里做决议计划，然后获得真实反馈，再举行进修的这个RL轮回的能力。

他直接点出来一个创业标的目的：“情况构建是下个热点的创业标的目的”。

“情况构建正于从一个随手搭的试验配件，酿成一个自力的创业赛道。假如你练习的智能体终极要于类出产情况中运作，那这个情况自己就是你焦点能力栈的一部门。”

他接下来要做的工作好像也呼之欲出了。

于这些对于整个技能所处阶段的判定以外，这篇文章也表现出林俊旸的小我私家思索方式特色。此中一个就是他对于操控一整个繁杂体系的痴迷。

他认为，将来的线路图是三级跳：从练习模子，到练习智能体，再到练习体系。

他的这篇文章一定会被拿来与已经经掌管起腾讯模子的姚顺雨一年前那篇《AI下半场》做对于比，而对于在一个繁杂体系的执迷以和已往直接于最顶端操盘一整个年夜范围繁杂体系的直接经验，多是这两篇文章里表现思绪上*的差别。

从他对于“agent化思索”的注释可以看出，于这里agent已经经不是被看成模子的某种运用形态，它终极会年夜过模子。

已往很长一段时间，各人对于agent的会商的出发点是，“模子很强盛，要把它的能力开释，构建一个agent是个不错的主张”。《下半场》的文章里，最主要的不雅点之一“语言经由过程agent中的推理实现泛化”也是这个意思。而林俊旸文章里表现出来的判定则是：

agent已经经是最焦点的阿谁智能体系自己，模子反而应该只是此中一部门。

以是，接下来所有资源投入的标的目的、需要练习及进化的也是这个体系自己。再也不是要开释模子能力，而是怎样让模子及体系里其他零部件一路*化地获得练习。

这是*的变化，咱们可能又到了一个可以打翻一切从头思索的时刻了。

附文章中文翻译版

0一、从“推理式思索”到“智能体式思索”

已往两年，模子的评估方式，以和咱们对于模子能力的期待，都被完全改写了。OpenAI 的 o1 证实了一件事：“思索”自己可以成为一种一等能力——它不仅可以被专门练习，也能够被直接袒露给用户。DeepSeek-R1 则进一步证实，带有“推理”气势派头的后练习要领，不只存于在最初那几家*试验室内部，它是可以被复现、被扩大的。OpenAI 将 o1 描写为一个经由过程强化进修练习、可以或许“于回覆前先思索”的模子；DeepSeek 则把 R1 定位为一个开放的推理模子，并传播鼓吹其竞争力可以对于标 o1。

阿谁阶段固然很主要。但 2025 年上半年，行业重要会商的，仍旧是“推理式思索”：怎样让模子于推理阶段耗损更多计较、怎样用更强的奖励机制去练习它、怎样把这类分外的思索历程开放给用户，或者者加以节制。

此刻真实的问题是：下一步是甚么？

我认为谜底是：智能体式思索。也就是，为了步履而思索；于与情况连续交互的历程中思索；并按照来自世界的反馈，不停更新本身的规划。

1.o1 及 R1 的突起，真正教会了咱们甚么

*波推理模子带来的最主要启迪是：假如咱们想把强化进修真正范围化地运用到语言模子上，就必需拥有确定、不变、可扩大的反馈旌旗灯号。是以，数学、代码、逻辑以和其他可验证范畴迅速成为焦点，由于于这些场景里，奖励旌旗灯号远比一般的偏好监视更强。它们让强化进修优化的是“准确性”，而不是“看起来合理”。

这时候，基础举措措施就变患上至关主要。

一旦模子被练习成可以沿着更长的轨迹举行推理，强化进修就再也不只是监视微调之上的一个轻量附加层，而会酿成一个体系工程问题。你需要年夜范围 rollout，需要高吞吐的验证机制，需要不变的计谋更新，还有需要高效采样。推理模子的呈现，素质上既是一个建模故事，也是一个基础举措措施故事。OpenAI 将 o1 描写为一条经由过程强化进修练习出来的“推理模子线”；尔后来的 DeepSeek R1，又进一步证实了：基在推理的强化进修，需要年夜量专门的算法与基础举措措施事情支撑。

*个庞大迁移转变已经经很是清晰：从扩大预练习，转向扩大面向推理的后练习。

2.真实的问题，从来不只是“把 Thinking 及 Instruct 归并”

于 2025 年头，咱们 Qwen 团队内部曾经经有过一个相称弘大的假想：抱负中的体系，应该把 thinking 模式及 instruct 模式同一起来。它该当撑持可调治的推理强度，近似 low / medium / high 如许的思索档位。更进一步，它*还有能按照 prompt 及上下文主动揣度出适合的思索量，让模子本身决议：何时马上回覆，何时多想一下子，何时则值患上为一个真正坚苦的问题投入更多算力。

从观点上看，这个标的目的固然是对于的。Qwen3 就是此中最清楚、最公然的一次测验考试之一。它提出了“混淆思索模式”，于统一个模子家族中同时撑持 thinking 及 non-thinking 两类举动，夸大可控的思索预算，并描写了一条四阶段的后练习流程，此中于长链式思维冷启动及推理强化进修以后，还有明确包罗了“思索模式交融”这一步。

但“归并”这件事，提及来轻易，真正做好却很是难。

最难的部门，实在是数据。

当人们评论辩论怎样交融 thinking 及 instruct 时，起首想到的往往是模子侧的兼容性：一个 checkpoint 能不克不及同时撑持两种模式？一个 chat template 能不克不及于两者之间切换？一个 serving stack 能不克不及把这些节制开关优雅地袒露出来？

但更深层的问题于在：这两种模式的数据漫衍及举动方针，素质上差异很年夜。

咱们于测验考试均衡模子交融与后练习数据质量、多样性晋升的历程中，并无把所有工作都做对于。与此同时，咱们也很是存眷用户现实是怎样利用 thinking 模式及 instruct 模式的。一个强 instruct 模子，凡是会由于如下特征而被奖励：直接、简便、格局听从性强、低延迟，特别擅优点理那些反复性高、吞吐量年夜、企业场景常见的使命，好比改写、标注、模板化客服、布局化抽取、运营问答等。一个强 thinking 模子，则会由于愿意于难题上耗损更多 token、能维持清楚的中间推理布局、会摸索替换路径、并保留充足多的内部计较以切实提高终极准确率，而得到奖励。

这两种举动画像，自己就是相互拉扯的。

假如交融数据没有被极为审慎地收拾，终极成果凡是就是“两端都不敷好”：thinking 侧会变患上嘈杂、痴肥、或者者缺少定夺力；instruct 侧则会掉去原有的爽性、靠得住及低成本，而这偏偏是贸易用户真正想要的。

以是于实践中，“分隔做”依然颇有吸引力。到了 2025 年后期，于 Qwen3 最初提出 hybrid framing 以后，2507 系列又别离发布了自力的 Instruct 及 Thinking 更新，包括各自自力的 30B 及 235B 版本。于贸易部署里，年夜量客户依旧明确需要高吞吐、低成本、高可控的 instruct 举动，行止理批量使命。对于在这些场景来讲，“交融”其实不显然是一种上风。将两条线拆开，反而让团队可以更专注地解决各自模式暗地里的数据及练习问题。

固然，也有其他试验室走了相反的路。Anthropic 公然主意一种“集成式模子”哲学：Claude 3.7 Sonnet 被先容为一个混淆推理模子，用户既可以选择平凡回覆，也能够开启 extended thinking，API 用户还有可以设置 thinking budget。Anthropic 明确暗示，他们信赖推理能力应该是集成于模子内部的能力，而不是一个自力模子。GLM-4.5 也公然把本身定位成一个同时包罗 thinking 与 non-thinking 模式的混淆推理模子，把推理、编码及 agent 能力同一于一路；DeepSeek 随后也于 V3.1 的“Think Non-Think”混淆推理中，朝着近似标的目的推进。

真正要害的问题，实在是：这类归并是否是“天然长出来”的。

假如 thinking 及 instruct 只是被强行塞进统一个 checkpoint 里，但体现出来仍旧像两个体扭拼接于一路的人格，那终极的产物体验依旧会很不天然。真正乐成的交融，应该出现出一个光滑的推理强度谱系。模子该当可以或许表达多种差别层级的思索投入，*还有能自顺应地做出选择。GPT 气势派头的 effort control 所指向的，实在恰是这个标的目的：它不是一个二元开关，而是一种关在计较资源分配的计谋。

3.为何 Anthropic 的标的目的，是一次有价值的纠偏

Anthropic 于 Claude 3.7 及 Claude 4 上的公然表述一直相对于克制。他们夸大的是集成式推理、用户可控的思索预算、真实世界使命、代码质量，以和厥后进一步夸大的——于 extended thinking 历程中挪用东西的能力。Claude 3.7 被界说为一个拥有可控预算的混淆推理模子；Claude 4 则把这件事又往前推进了一步：答应推理与东西利用交错发生。与此同时，Anthropic 始终把编码、永劫程使命及 agent 事情流视为重要方针。

更长的推理陈迹，其实不会主动让模子变患上更智慧。

许多时辰，过分袒露出来的“思索历程”，偏偏申明模子的资源分配出了问题。假如一个模子试图以一样冗长的方式去“思索所有工作”，那它可能其实不是更深刻，而是没能准确排序优先级、没能有用压缩信息、也没能和时步履。Anthropic 的线路，某种水平上表现了一种更有规律的见解：思索该当被方针事情负载塑形。

假如方针是编码，那末思索就应该帮忙模子完成代码库导航、使命计划、问题拆解、过错恢复与东西编排。

假如方针是 agent 事情流，那末思索就应该晋升它于永劫间跨度履行中的质量，而不是只产出一段看起来很厉害的中间 prose。

这类对于“针对于性效用”的夸大，实在指向了更年夜的变化：咱们正于从“练习模子”的时代，走向“练习智能体”的时代。

咱们于 Qwen3 的博客里实在也明确写过这一点：“咱们正从一个聚焦在练习模子的时代，转向一个以练习智能体为中央的时代。”同时，咱们也把将来强化进修的进展，与情况反馈驱动下的永劫程推理接洽于一路。

所谓智能体，是一种可以或许制订规划、决议什么时候步履、利用东西、感知情况反馈、批改计谋，并于永劫间标准上连续推进使命的体系。它的界说，不于在会不会“多想一点”，而于在它是否能与世界形成闭环交互。

4.“智能体式思索”到底象征着甚么

智能体式思索，对于应的是一种彻底差别的优化方针。

传统的推理式思索，凡是看的是：于给出终极谜底以前，模子内部的 deliberation 质量怎样。它能不克不及把定理做出来？能不克不及写出证实？能不克不及天生准确代码？能不克不及经由过程 benchmark？

而智能体式思索存眷的是另外一件事：模子于与情况交互的历程中，可否连续推进使命。

焦点问题也是以发生了变化：它再也不是“模子能不克不及思索患上充足久”，而是“模子能不克不及以一种可以或许支撑有用步履的方式去思索”。

智能体式思索必需处置惩罚好几类工作，而这些偏偏是纯推理模子往往可以逃避的：

何时该住手思索，转而采纳步履

应该挪用哪一个东西，以和挪用挨次是甚么

怎样接收来自情况的噪声信息或者不完备不雅测

掉败后怎样修改规划

怎样于多轮交互、屡次东西挪用中连结联贯性

归根到底，智能体式思索，就是一种经由过程步履来完成推理的模子能力。

5.为何面向智能体的强化进修基础举措措施更难

一旦方针从“解 benchmark 题”切换为“完成交互式使命”，强化进修的整个技能栈也会随之转变。经典推理强化进修所利用的那套基础举措措施，已经经不敷用了。

于传统 reasoning RL 中，rollout 往往可以被视作相对于关闭的轨迹，评估器也凡是比力洁净、明确。而于 agentic RL 里，计谋自己被嵌入进了一个更年夜的履行框架中：东西办事器、阅读器、终端、搜刮引擎、模仿器、履行沙箱、API 层、影象体系，以和各类 orchestration framework。情况再也不只是一个静态验证器，而成为了练习体系自己的一部门。

这会带来一个新的体系性要求：练习与推理必需被更完全地解耦。

假如做不到这一点，rollout 的吞吐量就会迅速崩失。想象一个编码智能体：它需要把本身天生的代码扔到一个真正的测试框架里去履行。此时，推理侧会由于等候履行反馈而阻滞，练习侧则由于拿不到已经完成轨迹而“断粮”，整个流水线的 GPU 使用率会远低在经典 reasoning RL 的程度。再叠加东西延迟、部门可不雅测性及有状况情况，这类低效只会被进一步放年夜。成果就是：于你真正抵达方针能力程度以前，试验速率就已经经慢到使人疾苦。

与此同时，情况自己也最先成为一种一等研究对于象。

于 SFT 时代，咱们痴迷在数据多样性；而于 agent 时代，咱们更应该痴迷在情况质量：它是否不变、是否真实、笼罩度够不敷、难度是否适合、状况空间是否充足富厚、反馈是否充足有信息量、是否抗 exploit、rollout 天生能不克不及范围化。

情况构建，已经经最先从一个“随手做的副项目”，逐渐酿成一个真实的创业赛道。由于假如你练习的是一个要于靠近出产情况的设置中运行的智能体，那末情况自己就是焦点能力栈的一部门。

6.下一个前沿，是“更可用的思索”

我的判定是，智能体式思索会成为主导性的思索范式。它终极甚至可能替换失很年夜一部门旧式、静态、独白式的推理：那种太长、关闭的内部思索陈迹，试图靠吐出愈来愈多文本，来填补缺少交互能力的不足。即即是于很是坚苦的数学或者编码使命上，一个真正进步前辈的体系，也理应拥有搜刮、模仿、履行、查抄、验证、批改的权力。咱们的方针，是让它稳健且高产地解决问题。

练习这种体系时，最难的问题之一，是 reward hacking。

一旦模子真正拥有了东西拜候能力，reward hacking 就会变患上伤害患上多。一个能搜刮的模子，可能会于 RL 历程中学会直接查谜底；一个编码智能体，可能会使用代码堆栈里的将来信息、滥用日记、或者者发明某些能让使命“看似完成”的捷径，从而让评估掉真。只要情况里存于隐蔽走漏，计谋就可能看起来像“超人”，但实在它学会的只是做弊。

这也是为何，智能体时代会比推理时代越发懦弱、越发邃密。更强的东西会让模子更有效，但同时也会显著扩展虚伪优化的进犯面。接下来真正严厉的研究瓶颈，极可能会集中于情况设计、评估器鲁棒性、反做弊和谈，以和 policy 与真实世界之间更原则化的接口设计上。

但标的目的已经经很是清晰了：带东西的思索，自然比伶仃的思索更有效，也更有可能真正晋升出产力。

智能体式思索还有将象征着另外一件事：履行框架工程（harness engineering）会变患上愈来愈主要。将来的焦点智能，愈来愈可能来自多个智能体是怎样被构造起来的：一个卖力使命计划及路由的 orchestrator，一组饰演范畴专家的专用智能体，以和若干履行更窄使命的 sub-agents；它们配合帮忙体系节制上下文、防止污染，并于差别层级的推理之间维持断绝。

将来的演进路径会是：从练习模子，到练习智能体；再从练习智能体，到练习体系。

0二、结论

这一轮推理海潮的*阶段，已经经确认了一件很是主要的事：当反馈旌旗灯号充足靠得住、基础举措措施充足支撑时，叠加于语言模子之上的强化进修，确凿可以或许孕育发生质变级另外认知晋升。

但更深层的改变，实在是：从推理式思索，走向智能体式思索；从“思索更久”，走向“为了步履而思索”。

练习的焦点对于象已经经变了。它再也不只是模子自己，而是“模子 + 情况”的整个体系；更详细地说，是智能体，以和包裹于它周围的那套履行框架。这也转变了甚么才是最主要的研究资产：固然仍旧包括模子架谈判练习数据，但一样主要的，还有有情况设计、rollout 基础举措措施、评估器鲁棒性，以和多个智能体相互协作时所依靠的接口。

它还有转变了咱们对于“好思索”的界说：真正有价值的，再也不是最长、最显眼的思维陈迹，而是阿谁最能支撑步履于真实世界约束下连续推进的思索轨迹。

它甚至还有转变了竞争上风未来自哪里。

于推理时代，上风重要来自更好的强化进修算法、更强的反馈旌旗灯号、以和更可扩大的练习流水线；而于智能体时代，上风将更多来自更好的情况、更慎密的练习—办事一体化、更强的履行框架工程能力，以和把模子决议计划与真实后果闭环毗连起来的能力。

【本文由投资界互助伙伴硅星人授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-ng28(南宫)相信品牌的力量

下一篇：和合共生积极有为——ng28(南宫)相信品牌的力量集团2025年度工作总结会顺利召开