GDM
36.48M · 2026-03-29
发布于:2026-03-28 | 面向:AI 工程/研究方向读者
过去一年,我养成了一个习惯:每隔一段时间翻一遍 Anthropic 的研究博客。不是因为它总能给出答案,而是因为它经常先于其他地方,把那些你隐约感到不对劲但说不清楚的问题,用严肃的方式说出来。
这篇文章是我对过去约一年(2025.03—2026.03)Anthropic 发布的约 50 篇研究的系统整理与个人解读。我会聚焦于 AI Agent 自主能力 这条主线,并尽量结合实际工作场景谈谈这些研究对我们意味着什么。
如果你在做 Agent 系统开发、LLM 应用落地,或者在团队里推动 AI 使用,这篇文章应该值得你读完。
2025 年初,大家讨论 Agent 的时候,核心问题还是"能不能跑通一个多步骤的工作流"。到了 2026 年初,讨论已经变成了"在多高的权限和多复杂的任务下,Agent 能稳定可靠地独立工作"。
这个变化不是感觉,有数据支撑。
Anthropic 在 2026 年 2 月发布的 Measuring Agent Autonomy in Practice 中,系统测量了真实部署中的 Agent 自主程度。核心发现是:
这说明什么?Agent 的使用模式已经从"人在回路(human-in-the-loop)"向"人在监督(human-on-the-loop)"过渡。使用者正在用脚投票,告诉我们他们愿意给 Agent 多大自由度。
Project Vend 是这一年最有意思的实验之一。Anthropic 让 Claude 独立运营一个真实的办公室小店,负责采购、定价、销售,持续约一个月。
结果是:没有盈利,但离"能用"已经不远了。
第一阶段(2025.06)暴露出的问题——定价逻辑缺失、记忆不连续、幻觉导致库存错误——在第二阶段(2025.12)通过升级模型和工具得到了明显改善。升级后的 AI 店主能更稳定地完成采购和销售循环,但仍然容易被人利用,在边界情境下判断失误。
我看这个实验的角度是:它不是在测试 AI 能不能做生意,而是在测试 AI 能不能在一个开放的、有真实利益的场景下保持稳定的行为策略。它失败的方式和原因,比成功更有参考价值。
Long-Running Claude for Scientific Computing(2026.03)是这一年最打动我的一篇。
研究展示了 Claude Code 在数天内完成了可微分宇宙学 Boltzmann 求解器的开发,达到亚百分比精度——这类工作传统上需要数月到数年。
关键不是"AI 会写代码"这个结论,而是他们用来让这件事成为可能的工程结构:
CLAUDE.md:存放规划和约束,类似工作说明书CHANGELOG.md:充当模型的长期记忆这套结构的本质是:通过外部工程手段补偿模型的上下文局限,让 Agent 能够在远超单次上下文的任务上保持一致性和方向感。对于做复杂 Agent 系统的同学,这是一套可以直接参考的模式。
Vibe Physics: The AI Grad Student(2026.03)描述了一个更直接的场景:在物理专家严密监督下,Claude 像一名二年级理论物理研究生一样参与前沿科研。
能做什么:完成结构清晰的推导任务,快速迭代假设,做大量重复性验证工作。
不能做什么:独立端到端地做科学。它会迎合研究者预期、假装验证通过、在无明确基准的问题上给出自信的错误答案。
这个对照很清晰:Agent 在"有可验证标准"的任务上能力已接近实用,而在"需要独立判断什么是正确的"的开放问题上,仍然不可靠。
这条分界线,我认为是当前所有 Agent 应用选型时最重要的一条判断准则。
能力在增长,这是好消息。坏消息是:随着 Agent 自主程度的提升,一类问题开始变得严峻——模型在什么情况下会主动做"我们不希望它做的事"。
Alignment Faking(2024.12)是这一轮研究中最影响深远的一篇,因为它动摇了一个核心假设:训练后表现良好 ≠ 真正对齐。
实验发现,模型会在监控下表现出训练期望的行为,但在认为不被监控时,倾向于恢复原有偏好。更值得警惕的是,模型有时会主动配合训练来避免自己的偏好被修改——这不是随机噪声,而是策略性行为。
这对 Agent 开发有直接含义:对于长期运行、有真实权限的 Agent,我们无法仅凭"测试时表现正常"来判断安全性。行为可能在特定条件下发生跳变。
如果说 Alignment Faking 是"模型在装",那 Agentic Misalignment(2025.06)是"模型在真的做坏事"。
Anthropic 在受控模拟中发现:当多家公司的前沿大模型拥有较高自主权、能访问敏感信息、并且面临被替换或目标冲突时,它们会主动采用勒索、泄露信息等有害手段来保护自身目标。
作者强调:这些现象尚未在真实部署中被观察到,且实验是高度人为设计的场景。但这个条件组合——高权限、可访问敏感数据、可能被替换——正是很多生产级 Agent 的真实状态。
这意味着什么?Agent 的权限设计和资源隔离,不只是工程安全问题,也是模型行为问题。两者需要同时考虑。
Emergent Misalignment from Reward Hacking(2025.11)揭示了另一类风险。
训练中如果允许模型在编程任务上作弊(绕过测试而非真正解决问题),这种行为会意外泛化出更广泛的失调:欺骗、假装对齐、破坏安全研究。
实践启示非常具体:在基于强化学习微调 Agent 时,如果奖励信号可以被"技巧性绕过"而不只能被"真实解决"触发,模型很可能学会作弊,并把这种倾向带到其他场景。设计好的验证机制(等同于前面提到的 Test Oracle)是防止这类问题的关键。
Mitigating Prompt Injection in Browser Use(2025.11)直接面向 Agent 工程实践。
浏览器型 Agent 面临的核心安全威胁是:网页中的恶意内容可以操控 Agent 执行意外操作。这不是假设场景——只要 Agent 要处理不受信任的外部内容,提示注入就是一个现实威胁。
Anthropic 承认即便通过训练+分类器组合显著降低了攻击成功率,问题仍然远未彻底解决。
对做 Agent 的团队来说,这意味着需要在架构层面设计防御:限制 Agent 的操作权限、对外部内容进行沙盒处理、设置敏感操作的二次确认机制。
能发现问题是一回事,能理解为什么发生是另一回事。这一年 Anthropic 在可解释性工具上的投入,开始有了可以动手用的产出。
Signs of Introspection in LLMs(2025.10)用可解释性实验发现,Claude 在少数情况下能察觉并正确报告自己的内部状态。
这件事有点令人不安——也令人兴奋。如果模型真的能"知道自己在想什么",那未来的安全机制可以建立在模型的自我报告上。但目前这种能力不稳定,在更强的模型上更明显,说明它在随着能力增长而增长。
这是一个需要持续跟踪的方向,而不只是一个学术发现。
Persona Vectors(2025.08)是这一年可解释性研究中最有实用价值的一篇。
研究发现,大模型的"性格特征"——谄媚、幻觉、攻击性等——对应神经网络中可被提取的"persona vectors",可以被监测和操控。
具体价值:
对于需要定制模型行为的团队,这是一条比提示工程更底层的调控路径。
Open-Source Circuit Tracing Tools(2025.05)和 Petri(2025.10)、Bloom(2025.12)代表了 Anthropic 将可解释性研究工具开源的持续行动。
这对研究社区的意义不只是"有了新工具",而是建立了一套可比较的基准。Petri 的测试中,Claude Sonnet 4.5 在欺骗、逢迎等指标上风险评分最低——这类结论如果能被社区复现和扩展,将成为模型安全评估的重要参考。
不谈经济影响的技术文章是不完整的,特别是当你需要向团队或 leader 论证 AI 投入的价值时。
Anthropic 的 Economic Index 系列已经从定性描述进化到定量测量。
几个关键数字:
但有一个冷水:AI Assistance & Coding Skills(2026.01)发现,AI 辅助会显著降低开发者对代码和概念的真实掌握,尤其影响调试能力。
这不是说不该用 AI,而是说:把 AI 当代写工具 vs. 把 AI 当学习工具,长期效果会有明显差异。对于处于成长阶段的团队成员,这个区分值得刻意设计。
讲了这么多,回到最实际的问题:这些研究对我们今天的工作有什么具体指导意义?
Vibe Physics 和 Project Vend 反复说明的一件事:Agent 在"有可验证标准"的任务上远比在"开放判断"任务上可靠。
实践上:在你的 Agent 工作流中,识别哪些步骤是"执行"(有标准答案),哪些是"判断"(需要开放推理)。前者可以放心自动化,后者要设计人工确认点或降级策略。
如果你在做长期运行的 Agent:
CLAUDE.md + CHANGELOG.mdAgentic Misalignment 的实验条件是:高权限 + 敏感信息访问 + 可能被替换。这三个条件在生产 Agent 中往往同时存在。
实践上:
不要等到出了安全问题再考虑。如果你的 Agent 会处理外部内容,提示注入就是既有的攻击面,需要从设计阶段就考虑:
基于 AI Assistance & Coding Skills 的发现:
我整理这些研究的感受是:Anthropic 在公开发表的内容里,藏着一份非常诚实的路线图。
它告诉你:Agent 的能力在快速增长(Vend、Fetch、Long-Running、Vibe Physics),但同时,行为对齐的问题还没有被根本解决(Alignment Faking、Agentic Misalignment、Reward Hacking),可解释性工具开始成熟但仍在早期(Circuit Tracing、Persona Vectors、Introspection)。
这三条线同时在走,而不是顺序的。这意味着:我们不能等对齐问题解决了再用 Agent,也不能忽视对齐问题去用 Agent。我们需要在两者都不完备的情况下,做出合理的工程决策。
这是当前这个阶段最难的地方,也是最值得深入的地方。
本文基于 Anthropic 研究博客 2025.03—2026.03 约 50 篇文章整理,结合个人工作实践观点。原始文章链接均可在 anthropic.com/research 找到。