SSP AI Coding Registry
Skills

Standards

本站对 skill 质量的最小统一标准

本站当前采用的 skill 标准来自三类来源的交集:

  • agentskills.io 的创建最佳实践
  • agentskills.io 的描述优化与评估思路
  • 本仓库自己的 TDD / verification / review 纪律

Pass Bar

一个 skill 在本站至少要过这条线:

  1. 能说清楚什么时候触发,什么时候不该触发
  2. 有默认流程,不把用户扔进菜单式分支
  3. 有验证循环,说明如何确认输出真的合格
  4. 有失败处理,不在失败时继续假装成功
  5. 有 eval 资产,至少覆盖正例和反例

Evaluation Layers

本站把 evaluate 拆成两层:

  • evals/queries.json 关注 Trigger Precision 和 False Positives
  • evals/evals.json 关注 skill 被触发后,输出是否满足最小质量线

这两层一起看,才能避免:

  • 该触发时不触发
  • 不该触发时乱触发
  • 触发了但输出只是“看起来像在工作”

Rubric

维度要求最低过线标准
Trigger Precision触发条件清楚,能覆盖真实用户说法至少有 2 个正例,且描述不是空话
False Positives不该触发的场景能明确排除至少有 1 个反例
Default Pathskill 有默认执行路径能按顺序执行,不需要二次猜测
Verification Loopskill 说明如何验证自己是否做对至少有一轮“执行后再检查”的闭环
Failure Handling失败时怎么收敛不会在失败时继续给高置信结论
Output Contract输出结构稳定,可被 reviewevals/evals.json 能验证关键输出项

Review Checklist

给 skill 做 review 时,至少过一遍这 6 项:

  • description 是触发条件,不是流程摘要
  • SKILL.md 里有 触发条件 / 前置条件 / 默认流程 / 验证循环 / 成功判据 / 失败处理
  • queries.json 同时包含正例和反例
  • evals.json 能检查关键输出,不只是检查关键词
  • skill 不会把假设说成已确认事实
  • skill 的默认路径足够窄,不会偷偷扩大范围

Common Failure Modes

下面这些情况,默认都算没过线:

  • description 太泛,像口号,不像触发器
  • 只有“做什么”,没有“怎么验证”
  • 只有正例,没有反例
  • skill 会在信息不足时给高置信结论
  • 失败处理只写“重试”而没有收敛路径
  • 结构看起来完整,但默认流程根本无法执行

Current Policy

当前本站要求重点 skill 同时包含:

  • evals/queries.json
  • evals/evals.json
  • 可复用的默认流程
  • 可复用的验证循环

前者判断“该不该触发”,后者判断“触发后输出是否合格”。

Risk-tier Compatibility

如果一个 skill 会参与高风险任务,它还必须说明:

  • 什么时候应该进入 Guarded Path
  • 什么时候需要 Preflight
  • 什么时候不能直接放行

Human Trust Compatibility

如果 skill 影响的是 agent-authored 结果的放行,它必须说明:

  • 低风险时哪些证据足以放行
  • 高风险时什么情况下必须人工验收
  • 什么时候应该输出 needs-human-acceptance

参考

On this page