您的位置: 首页> AI模型

你知道不，你现在给 AI 用的 Agent Skills 可能毫无作用，甚至还拖后腿？

匿名上传

发布时间:2026-02-18 16:36:01

最近，一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文提出了一个很有意思的观点：自生成的 Agnet Skills 毫无用处。

这篇论文（arXiv:2602.12670，SkillsBench）在一个专门为「技能是否真的有用」设计的基准上，得到了一个系统性结论：让模型自己写一套“技能/流程指南”，平均并不能提高成功率，甚至略微下降。

首先我们要明确一个基础点，那么就是 Agent Skill 是什么？这里他们把 Agent Skill 定义成一种结构化的“程序性知识包” ，用于在推理/执行时增强 Agent：

同时论文也明确区分：Skill 不等于普通系统提示词、不等于 few-shot、不等于 RAG 检索、不等于纯工具文档，Skill 更强调可复用的工作流/SOP + 结构化资源，而针对测试场景，论文也区分了 Curated Skills 和 Self-generated Skills：

Curated Skills ：提前设计好的、结构化的“操作指南 + 资源包”，“能落地执行”的 SOP
Self-generated Skills ：模型自己写的技能，比如给模型一个任务，要求它先“写一个技能文件”，然后再用自己写的技能去做任务

而 SkillsBench 这个 benchmark 做了一个基准：84 个任务、11 个领域，每个任务都有确定性验证场景（跑脚本/单测，给出 pass/fail），并且同一个任务在三种条件下对比：

No Skills ：只有任务说明 instruction.md，环境里没有 skills

With Skills（Curated Skills） ：提供专业写好的完整详细技能包（包含步骤、示例、脚本等）

Self-Generated Skills：不给技能包，但要求模型先自己生成“技能文件” 再做任务，用来隔离“模型自身潜在知识”能不能替代人类技能。

整个 Benchmark 它分成三大阶段：Benchmark Construction 、 Quality Filtering、 Evaluation。

其中 Benchmark Construction 的核心是 Skill 生态收集，包括：

开源仓库 12,847
Claude Code 生态 28,412
企业伙伴 5,891

总计汇聚后，通过去重得到 47,150 unique skills，有 322 位贡献者提交 105 个候选任务

而 Quality Filtering 是把 105 个候选任务筛成最终基准任务，包括：

自动化检查
- Structure（结构有效性）
- Oracle 100%（验证器能稳定得到 100% 正确结果）
- AI Detection（检测任务是不是 AI 生成的水任务）
- Leakage Audit（泄漏审计：防止 skills 里直接塞答案/作弊路径）

人工审查
- Data Validity（数据有效）
- Task Realism（任务真实）
- Oracle Quality（验证器质量）
- Skill Quality（配套技能质量）
- Anti-Cheating（防作弊）

最终产出：84 个任务，覆盖 11 个领域 。

在 Evaluation 阶段的同一批任务，会在三种场景下运行，同时用三套商业 harness 执行（Claude Code / Gemini CLI / Codex CLI），结果用 pytest 等确定性验证器给出 Pass/Fail ：

总共跑了 7 个 agent-model 配置，得到 7,308 条轨迹

而对于任务，是用人类完成时间作为难度来变为：

Core：17 个任务（19.8%），人类完成时间 < 60 min
Extended：43 个任务（50.0%），人类完成时间 1–4 hours
Extreme：26 个任务（30.2%），人类完成时间 > 4 hours

所以从整个配置可以看出来：

这个测试不是“手工写了几十个 demo”，而是从真实生态里抽样出一个很大的技能池 + 真实贡献者任务池
这个 benchmark 的难点不在「写题」，而在「确保题靠谱、可验证、不可投机取巧」
测的是「能不能真的做对并通过测试」，不是主观打分，也不是看起来像对

所以整个论文测试，不是只测「加一点上下文有没有用」，而是测「真实世界里那种 skill 」到底能不能稳定带来收益，根据测试结果：

No Skills ：平均通过率：24.3%

Curated Skills ：平均通过率：40.6%，g 的均值 21.5
Self-generated Skills：平均通过率：21.0%，对应 g 的均值是 -1.8

另外论文作者也总结了，对比 no-Skills ：

Self-generated Skills 的平均收益是 –1.3pp ，除了 Opus 4.6 有 +1.4pp ，Codex + GPT-5.2 甚至出现了 –5.6pp
而 Curated Skills 的平均收益则是 +16.2pp，但效果差异很大， 84 个任务里有 16 个任务出现负向 delta

论文把 Self-generated Skills 失败总结为：模型不能可靠地“写出”自己在执行时真正会受益的程序性知识，因此“自生成”平均没有收益，这也是可以理解，目前的 AI 存在概率支持，效果和产出都看它当时的“心情”，论文把 self-generated 失败归因到一个很现实的点：

说人话就是：模型「会做」但「不会写出可复用的程序性知识」，更具体，论文通过轨迹分析提了两个典型失败模式：

知道需要领域知识，但写出来太泛/不完整，比如只写「用 pandas 处理数据」，却不给关键 API 模式、坑点、验证方法、边界条件，导致对实际任务没有可执行指导意义。

高领域知识任务里，干脆没意识到需要专门技能，在制造、金融等任务上，模型常用“通用解法”硬莽，错过了需要 SOP/行业流程的关键步骤。

总结起来就是： self-gen 往往生成的是“看起来像指南的废话”，或者压根没抓住应该写什么。

到这里，可能有人会好奇，为什么会有 self-generated 这种用法？什么场景会有人让 AI 自己写 Skills ？实际上这种场景还很多，现在很多 Skills 就是懒人直接让 AI 写的，而更典型的代表，是 Claudeception 这种：

所以 Claudeception 的使用场景就无比贴合这个 SkillsBench ，也就是让 AI 长时间维护和迭代 Skill 是否可靠？目前这篇论文给出的结论是：并不可靠。

而对于专业人士写出来的 Curated Skills，通常包括：

明确步骤顺序
工具/命令模板
数据格式约束
验证检查点
常见错误与修复路径

特别是 Curated Skills 包含有领域特定知识，比如在 failure analysis 里作者就说过 Self-generated 常见问题是：

没意识到某些任务需要专门领域流程
写出的步骤过于通用

另外，除了“self-gen 不行”，论文还做了技能设计因素分析：

技能数量 2–3 个模块最好，太多反而拖累，按任务提供的 skill 数量分组 2–3 skills 的提升最大（+18.6pp） ，4 个以上提升很小，甚至可能带来认知负担/冲突

技能“文档复杂度”上，聚焦型胜过“大全型” ，论文把把 Skills 文档分成 detailed/compact/standard/comprehensive，结果是：
- detailed、compact 提升更大
- comprehensive（“把所有东西都塞进去”那种）平均还降低了（-2.9pp）

所以技能不是越长越好，而是要把 agent 下一步要做什么写清楚（含检查点、命令模板、失败回滚），否则就是噪声。

所以，通过这篇论文可以总结，Agnet Skills 不是几句简单的提示词，系统的的技能包确实能增强 Agent，但是目前 AI 自己维护的 Self-generated Skills 几乎没用，甚至还会拉低效果 ，关键原因是模型很难稳定写出真正可执行、降低搜索空间的程序性知识，同时技能设计比数量也狠重要，技能不是越多越好，也不是越详细越好。

总的来就是，高质量技能 = 搜索空间压缩器，它可以限定决策路径、减少无效探索、提供验证锚点和显式化领域隐性流程，这才是 Skills 能推高 Pareto frontier 的原因，所以，你需要避免百科式技能，它可能带来的更多的噪音。

所以，如果你发现 Skill 用多了，Agent 反而傻了，不要怀疑，是你的 Skill 给你的 Agent 掺了屎。