Skills

Standards

本站对 skill 质量的最小统一标准

本站当前采用的 skill 标准来自三类来源的交集：

agentskills.io 的创建最佳实践
agentskills.io 的描述优化与评估思路
本仓库自己的 TDD / verification / review 纪律

Pass Bar

一个 skill 在本站至少要过这条线：

能说清楚什么时候触发，什么时候不该触发
有默认流程，不把用户扔进菜单式分支
有验证循环，说明如何确认输出真的合格
有失败处理，不在失败时继续假装成功
有 eval 资产，至少覆盖正例和反例

Evaluation Layers

本站把 evaluate 拆成两层：

evals/queries.json 关注 Trigger Precision 和 False Positives
evals/evals.json 关注 skill 被触发后，输出是否满足最小质量线

这两层一起看，才能避免：

该触发时不触发
不该触发时乱触发
触发了但输出只是“看起来像在工作”

Rubric

维度	要求	最低过线标准
Trigger Precision	触发条件清楚，能覆盖真实用户说法	至少有 2 个正例，且描述不是空话
False Positives	不该触发的场景能明确排除	至少有 1 个反例
Default Path	skill 有默认执行路径	能按顺序执行，不需要二次猜测
Verification Loop	skill 说明如何验证自己是否做对	至少有一轮“执行后再检查”的闭环
Failure Handling	失败时怎么收敛	不会在失败时继续给高置信结论
Output Contract	输出结构稳定，可被 review	`evals/evals.json` 能验证关键输出项

Review Checklist

给 skill 做 review 时，至少过一遍这 6 项：

description 是触发条件，不是流程摘要
SKILL.md 里有 触发条件 / 前置条件 / 默认流程 / 验证循环 / 成功判据 / 失败处理
queries.json 同时包含正例和反例
evals.json 能检查关键输出，不只是检查关键词
skill 不会把假设说成已确认事实
skill 的默认路径足够窄，不会偷偷扩大范围

Common Failure Modes

下面这些情况，默认都算没过线：

description 太泛，像口号，不像触发器
只有“做什么”，没有“怎么验证”
只有正例，没有反例
skill 会在信息不足时给高置信结论
失败处理只写“重试”而没有收敛路径
结构看起来完整，但默认流程根本无法执行

Current Policy

当前本站要求重点 skill 同时包含：

evals/queries.json
evals/evals.json
可复用的默认流程
可复用的验证循环

前者判断“该不该触发”，后者判断“触发后输出是否合格”。

Risk-tier Compatibility

如果一个 skill 会参与高风险任务，它还必须说明：

什么时候应该进入 Guarded Path
什么时候需要 Preflight
什么时候不能直接放行

Human Trust Compatibility

如果 skill 影响的是 agent-authored 结果的放行，它必须说明：

低风险时哪些证据足以放行
高风险时什么情况下必须人工验收
什么时候应该输出 needs-human-acceptance

参考

Skills

单独展示 skills 的分层、标准、安装方式和 use cases 演进方向

Project Skills

本仓库正在使用的项目级 skills 分层

On this page

Pass Bar Evaluation Layers Rubric Review Checklist Common Failure Modes Current Policy Risk-tier Compatibility Human Trust Compatibility 参考