Thunderbird
13.01M · 2026-04-08
上个月,我们给团队接了一个“代码评审 Agent”。
Demo 那天很惊艳:它能读 diff、能提重构建议、还能自动生成 review 评论。三天后,我们把它下线了。
不是模型突然变笨,而是它在最关键的一步不断翻车: 该谨慎时自信满满,该给证据时只给结论,该升级给人时硬着头皮继续执行。
那一刻我意识到,2026 年真正危险的能力断层,不是“你会不会写代码”,而是“你会不会设计 Agent 工作流”。
这几天我刷 GitHub,有两个现象非常明显:
这说明一件事: 模型能力正在变成基础设施,真正拉开差距的是流程设计能力。
过去我们做软件,默认逻辑是确定性的:输入 A,得到 B。 现在接入 Agent 后,系统里多了一个概率节点:它有时正确,有时离谱,而且离谱时往往很像正确。
这意味着工程挑战变了:
你要设计的,不再只是函数调用链,而是一个“会犯错的执行体”的活动范围。
换句话说,代码能力解决“怎么做”; 工作流能力解决“做错了怎么办”。
我现在把 Agent 工作流拆成四层:
很多团队不是模型不行,而是这四层有两层是空的。
最开始我们的流程是这样的:
看起来顺,实际上风险极高。因为“输出”那一步没有证据门槛。
后来我们改成了五步:
改完之后,最明显的变化不是“它更聪明了”,而是“它更可控了”。
可控,才是工程系统里真正的智能。
2026 年之后,团队会出现一个新分层:
前者能跑出一个漂亮 demo,后者能扛住凌晨两点的报警。
如果你今天就在做 AI 应用,我的建议不是“再调 20 版提示词”, 而是先问自己三个问题:
这三个问题,决定了你的系统是在“表演智能”,还是“交付智能”。
“不会写代码”会让你慢一点, “不会设计工作流”会让你在关键时刻直接失控。
下一个阶段,最值钱的工程能力,不是把模型接进来, 而是把模型关进一个可被治理的流程里。
这是我最近最深的体感。
你们团队现在的 Agent,属于“能跑”,还是“能扛事”?