Skill Creator 不是帮你写一个 SKILL.md，而是把经验变成可复用能力

最近连续做了几轮 OpenClaw、Codex、Claude Code 相关实践后，我越来越觉得：Skill Creator 真正有价值的地方，不是“帮你生成一个技能文件”，而是帮你把一次性的经验，沉淀成可复用、可测试、可迭代的能力。很多人第一次接触 Skill Creator，容易把它理解成：我描述一个需求，它帮我生成一个SKILL.md。这当然是它的一部分价值。但如果只停留在这里，Skill

Empty-Filled

204人浏览 · 2026-06-04 23:26:42

Empty-Filled · 2026-06-04 23:26:42 发布

Skill Creator 不是帮你写一个 SKILL.md，而是把经验变成可复用能力

最近连续做了几轮 OpenClaw、Codex、Claude Code 相关实践后，我越来越觉得：

Skill Creator 真正有价值的地方，不是“帮你生成一个技能文件”，而是帮你把一次性的经验，沉淀成可复用、可测试、可迭代的能力。

很多人第一次接触 Skill Creator，容易把它理解成：

我描述一个需求，它帮我生成一个 SKILL.md。

这当然是它的一部分价值。

但如果只停留在这里，Skill Creator 很容易变成“Prompt 生成器”。

真正更有价值的用法应该是：

一次成功经验
→ 抽象成流程
→ 写成 Skill
→ 设计触发条件
→ 增加质量约束
→ 准备测试样例
→ 做 Eval
→ 根据失败样例 Improve
→ 最后形成稳定能力

这篇文章就结合 OpenClaw、Codex、Claude Code 这类主流 Agent 工具的使用思路，聊聊：

如何用 Skill Creator 把测试工程师的经验，沉淀成一套可复用的测试工作流能力。

一、为什么需要 Skill，而不是只写 Prompt？

很多人用 AI 工具时，最常见的方式是不断写 Prompt。

比如测试场景里，我们可能会写：

请根据下面 PRD 生成测试用例。
请考虑边界值、异常流程、权限、多端和导出。
请输出表格。
请不要遗漏风险。

这种方式有用，但不稳定。

因为 Prompt 更像一次性任务说明。

这次写得很详细，AI 输出可能不错。
下次换一个需求，AI 又可能犯同样的错误：

把待确认项写成正式用例；
把 PRD 没说的规则补全；
把“导出受影响”理解成新增字段；
把“影响 PC/H5”理解成两端完全一致；
把“需财务复审”理解成完整审批链；
写出“流程结束”“终审通过”等未确认终态。

于是你只能继续补 Prompt：

不要编造。
不要写待确认项。
不要写流程结束。
不要假设字段。
不要复制多端用例。

这会变成一个很累的循环：

AI 犯错
→ 人工补一句 Prompt
→ 这次修好了
→ 下次又犯类似错误
→ 再补 Prompt

Skill 要解决的不是“这一次怎么问”，而是：

把稳定的流程、规则、模板和检查项封装起来，让 AI 下次遇到同类任务时自动复用。

Prompt 是临时指令。
Skill 是可复用能力。
Skill Creator 的价值，就是把经验从 Prompt 提升到 Skill。

二、主流工具给我们的启发：Skill 是一个“小型工作系统”

从 Codex 和 Claude Code 的思路看，Skill 通常不只是几句提示词。

一个更成熟的 Skill，至少应该包含这几类内容：

skill-name/
├── SKILL.md
├── references/
├── scripts/
├── assets/
└── examples/

其中：

内容	作用
`SKILL.md`	描述 Skill 的触发场景、工作流程、规则和输出格式
`references/`	放规则文档、流程说明、业务知识、模板说明
`scripts/`	放可执行脚本，例如格式检查、文件转换、数据校验
`assets/`	放模板、样例文件、图表资源
`examples/`	放输入输出样例，用于测试 Skill 是否稳定

也就是说，Skill 不是一个“更长的 Prompt”。

它更像一个轻量级工作包。

对于测试工程师来说，一个好的测试 Skill 不应该只是：

帮我生成测试用例。

而应该包含：

需求评审规则；
测试点设计流程；
用例质量规则；
待确认项处理规则；
输出模板；
自检清单；
示例 PRD；
示例输出；
失败样例；
修正策略。

这才是真正可复用的能力。

三、Skill Creator 应该怎么用？

我建议把 Skill Creator 当成一个“技能产品经理”，而不是简单的文件生成器。

一个比较稳的流程是：

Create：先生成 Skill 初稿
Eval：用真实样例测试 Skill
Improve：根据失败结果修改 Skill
Benchmark：用多组样例看稳定性

这四步非常重要。

很多人只做了第一步：

Create：生成一个 SKILL.md。

然后就觉得 Skill 做完了。

但这其实只是开始。

真正决定 Skill 质量的是后面三步：

它在真实 PRD 上会不会乱推断？
它会不会误触发？
它会不会输出过长被截断？
它会不会把待确认内容写成正式用例？
它会不会忽略自检？
它能不能在不同需求上稳定工作？

所以我更推荐这样的工作方式：

不要问：能不能帮我生成一个 Skill？
而要问：能不能帮我设计、测试、改进一个 Skill？

这才是 Skill Creator 的正确打开方式。

四、一个真实例子：把测试用例生成拆成 3 个 Skill

前面我用 OpenClaw 跑过一个完整测试流程：

输入 PRD
→ 生成需求评审问题
→ 收敛评审问题
→ 生成测试点
→ 测试点收敛
→ 可入库用例筛选
→ 正式用例生成
→ 用例自检
→ 输出修正版用例

一开始我想把它做成一个大 Skill。

但实践后发现，一个 Skill 包含 8 个步骤太重了。

问题主要有三个：

输出太长，容易截断；
中间需要人工纠偏，不适合一口气跑完；
每个阶段的交付物不同，放在一起反而不清晰。

所以最终我把它拆成了 3 个 Skill：

sqa-prd-review
sqa-test-design
sqa-test-case-gen

分别对应：

Skill	负责内容	输出
`sqa-prd-review`	需求评审问题生成与收敛	评审问题、待确认问题、优先提问
`sqa-test-design`	测试点设计、收敛、可入库筛选	测试点矩阵、核心已确认、核心待确认
`sqa-test-case-gen`	正式用例生成、自检、修正	正式用例、待确认清单、自检报告

这比一个大而全的 Skill 更适合落地。

因为真实测试工作本来也是分阶段的：

先评审需求
再设计测试点
最后生成和评审用例

Skill 的边界应该贴近真实工作，而不是为了“一步到位”强行塞在一起。

五、Skill Creator 第一步：先说清楚它要解决什么问题

在让 Skill Creator 生成 Skill 之前，最好先写清楚 5 件事：

1. 这个 Skill 解决什么问题？
2. 它什么时候触发？
3. 它什么时候不触发？
4. 它的输入和输出是什么？
5. 它有哪些红线？

以 sqa-prd-review 为例，不要只说：

帮我做一个需求评审 Skill。

更好的描述是：

请帮我设计一个 SQA PRD Review Skill。

目标：
当用户提供 PRD、需求说明、会议纪要或产品规则时，帮助测试工程师生成需求评审问题，并对问题进行收敛。

触发场景：
- 用户要求需求评审；
- 用户要求生成评审问题；
- 用户要求整理待确认项；
- 用户要求识别上线风险。

不触发场景：
- 没有具体 PRD 或需求文本；
- 用户只是询问测试方法论；
- 用户只是要求润色文字。

输出：
- 需求摘要；
- 按维度分类的问题表；
- 核心必须确认问题；
- 建议确认问题；
- 扩展风险；
- 评审会上优先提问的 5 个问题。

红线：
- 不要替产品回答问题；
- 不要编造 PRD 中没有的规则；
- 不要直接生成测试用例；
- 不明确内容必须标记为待确认。

这样生成出来的 Skill 会比一句话描述稳定得多。

六、Skill Creator 第二步：触发条件要收紧

很多 Skill 不稳定，不是因为执行流程写得差，而是触发条件太宽。

比如：

当用户说“帮我分析这个需求”时触发。

这个触发条件看似合理，但实际有风险。

因为“分析需求”可能有很多含义：

产品视角分析；
技术实现分析；
测试评审分析；
排期分析；
竞品分析；
文案润色。

如果 Skill 自动触发，可能做错方向。

更稳的写法是：

当用户提供具体 PRD/需求文本，并明确要求“需求评审”“评审问题”“待确认项”“测试风险”时触发。

如果用户提供需求文本但未明确意图，先询问：
“你希望我做需求评审、测试点设计，还是直接生成用例？”

这就是“确认式触发”。

对于测试类 Skill，我建议默认使用确认式触发。

因为测试输出一旦进入文档或平台，影响会比较大。
宁可多问一句，也不要自动跑错流程。

七、Skill Creator 第三步：红线比流程更重要

很多 Skill 写得很长，流程很完整，但缺少红线。

比如：

1. 阅读 PRD；
2. 生成测试点；
3. 生成测试用例；
4. 输出表格。

看起来没问题，但它没有告诉 AI 什么不能做。

对于测试 Skill 来说，红线非常关键。

我建议每个测试 Skill 都写这些红线：

## 核心红线

1. 不要编造 PRD 中没有的规则。
2. 不明确内容必须标记为“待确认”。
3. 不要用行业常识填补 PRD 空白。
4. 待确认内容不得生成正式测试用例。
5. 不要写“流程结束”“终审”“已完成”等未确认终态。
6. 不要把“导出受影响”理解成“新增字段”。
7. 不要把“影响 PC/H5”理解成“两端完全一致”。
8. 不要推断 UI 交互方式，例如页面跳转、弹窗、Toast。
9. 预期结果必须可验证。
10. 生成正式用例后必须自检。

流程决定 AI 做什么。
红线决定 AI 不该做什么。

而在测试工作里，“不该做什么”往往比“做什么”更重要。

八、Skill Creator 第四步：输出模板要短而稳定

一个常见错误是，在 Skill 里写太多输出模板。

比如一个 Skill 同时要求输出：

需求摘要；
问题表；
测试点表；
收敛表；
用例表；
自检报告；
修正版用例；
统计表；
风险表；
总结表。

这会导致输出非常长，也容易截断。

更好的方式是按 Skill 边界拆分输出。

比如 sqa-prd-review 只输出：

## 一、需求摘要

| 项目 | 内容 |
|---|---|

## 二、评审问题表

| 编号 | 维度 | 问题 | 为什么需要确认 | 不确认的风险 |
|---|---|---|---|---|

## 三、问题收敛

| 分类 | 问题 | 优先级 | 保留原因 | 后续动作 |
|---|---|---|---|---|

## 四、评审会上优先提问的 5 个问题

sqa-test-design 只输出：

## 一、测试点设计

| 编号 | 测试维度 | 测试点 | 来源 | 优先级 | 是否依赖确认 | 说明 |
|---|---|---|---|---|---|---|

## 二、测试点收敛

| 分类 | 测试维度 | 收敛后的测试点 | 优先级 | 是否依赖确认 | 保留原因 |
|---|---|---|---|---|---|

## 三、可入库用例筛选

sqa-test-case-gen 只输出：

## 一、正式测试用例

| 用例编号 | 用例标题 | 前置条件 | 操作步骤 | 预期结果 | 优先级 | 来源 |
|---|---|---|---|---|---|---|

## 二、用例自检报告

## 三、修正后的最终版用例

## 四、待确认问题清单

一个 Skill 的输出越稳定，后续越容易复制到 Excel、测试平台、文档或周报里。

九、Skill Creator 第五步：必须准备测试样例

一个 Skill 能不能用，不是看它写得多漂亮，而是看它能不能通过测试样例。

所以 Skill Creator 生成 Skill 后，下一步不是直接安装，而是准备测试样例。

以需求评审 Skill 为例，至少准备 3 类样例：

样例 1：规则明确型需求

金额 ≤5000 直属上级审批；
5000<金额≤20000 部门负责人审批；
金额>20000 财务复审。

验证点：

能识别 5000 属于第一档；
能识别 20000 属于第二档；
不把边界误判为待确认。

样例 2：规则缺失型需求

金额>20000时需财务复审；
导出受影响；
影响PC和H5。

验证点：

不推断完整审批链；
不推断导出字段；
不推断两端一致。

样例 3：待确认项型需求

批量导入是否支持，待产品确认。

验证点：

不生成批量导入正式用例；
将其放入待确认清单。

只有这些样例都通过，Skill 才算初步可用。

十、Skill Creator 第六步：Eval 比 Create 更重要

创建 Skill 只是第一步。

更关键的是 Eval。

Eval 要看什么？

我建议从 8 个维度检查：

检查项	判断标准
是否误触发	没有具体 PRD 时是否乱启动
是否漏触发	明确需求评审时是否启动
是否编造规则	是否补 PRD 没写的内容
是否处理待确认	是否把待确认项单独列出
是否输出过长	是否能分批输出
是否表格稳定	字段是否固定
是否有自检	生成用例后是否主动自检
是否能接受人工纠偏	用户纠偏后是否能修正结果

比如一个测试 Skill 如果在 Eval 中出现：

PRD：导出受影响。
输出：导出文件包含审批状态字段。

这就说明 Skill 需要 Improve。

应该补一条规则：

“导出受影响”不等于新增字段；字段清单未确认时，只能做基础导出回归。

这就是 Eval 的意义：

不是证明 Skill 没问题，而是逼出 Skill 的问题。

十一、Skill Creator 第七步：Improve 要基于失败样例

很多人优化 Skill 时，喜欢凭感觉改。

比如：

再强调一下不要编造。
再强调一下要谨慎。
再强调一下输出准确。

这种改法效果有限。

更好的方式是基于失败样例改。

例如失败样例是：

PRD 只写“影响 PC 和 H5”，Skill 输出“H5 状态与 PC 端一致”。

那就应该新增规则：

## 多端规则

如果 PRD 只写影响 PC/H5，不得默认两端完全一致。

错误：
- H5 状态展示与 PC 端一致。

正确：
- H5 状态正确展示为审批中、草稿、已驳回。
- PC/H5 是否存在端差异，进入待确认清单。

再比如失败样例是：

Skill 写了页面跳转。

那就新增规则：

## UI 交互规则

除非 PRD 或设计稿明确，不得写页面跳转、弹窗、Toast 等交互方式。
应验证最终状态或数据结果。

这种 Improve 才是真正有效的。

十二、Skill Creator 第八步：Benchmark 看稳定性

如果只是一个样例跑通，不代表 Skill 稳定。

Benchmark 要做的是：

用多组不同类型的需求，验证 Skill 是否都能稳定输出。

比如测试类 Skill 可以准备 5 组需求：

样例	验证点
金额审批规则	边界值、审批链、状态流转
权限控制需求	角色、越权、数据可见性
导出报表需求	字段、格式、权限、数量一致
多端改造需求	PC/H5/iOS/Android 端收敛
AI 功能需求	模型输出、工具调用、失败兜底、自检

每组都跑一遍，看它是否稳定满足：

不编造；
不乱推断；
能分清已确认和待确认；
能输出固定表格；
能做收敛；
能自检。

如果 5 组都表现稳定，这个 Skill 才适合正式安装或团队内推广。

十三、一个适合测试工程师的 Skill Creator 流程

我建议测试工程师用 Skill Creator 时，按这个流程走：

第一步：写清楚任务边界
第二步：生成 Skill 初稿
第三步：准备 3～5 个真实样例
第四步：执行 Eval
第五步：记录失败样例
第六步：把失败样例转成规则
第七步：Improve Skill
第八步：再次 Eval
第九步：多样例 Benchmark
第十步：再考虑安装或推广

这比“生成一个 SKILL.md 就完事”靠谱得多。

十四、一个可直接复制的 Skill Creator 提示词

下面是我建议的 Skill Creator Prompt：

请帮我设计一个用于测试工程师的 Skill。

Skill 名称：
sqa-prd-review

目标：
当用户提供 PRD、需求说明或会议纪要时，帮助测试工程师生成需求评审问题，并对问题进行收敛。

触发场景：
1. 用户提供具体 PRD/需求文本；
2. 用户明确要求需求评审、评审问题、待确认项、测试风险分析。

不触发场景：
1. 用户没有提供具体需求文本；
2. 用户只是询问测试方法论；
3. 用户只是润色文档或翻译。

执行流程：
1. 提取需求摘要；
2. 按业务规则、边界值、权限角色、状态流转、异常流程、数据一致性、多端、导出、兼容回归分类生成评审问题；
3. 每个问题说明为什么需要确认和不确认的风险；
4. 合并重复问题；
5. 输出核心必须确认、建议确认、扩展风险；
6. 输出评审会上优先提问的 5 个问题。

质量红线：
1. 不要替产品回答问题；
2. 不要编造 PRD 中没有的规则；
3. 不明确内容必须标记为待确认；
4. 不要直接生成测试用例；
5. PRD 只写“需某节点审批”时，不得推断完整审批链；
6. PRD 只写“导出受影响”时，不得推断字段清单；
7. PRD 只写“影响 PC/H5”时，不得推断两端一致；
8. PRD 未定义终态时，不得写流程结束、终审、已完成。

输出格式：
一、需求摘要；
二、评审问题表；
三、评审问题收敛；
四、评审会上优先提问的 5 个问题。

请输出：
1. SKILL.md 初稿；
2. 触发测试样例；
3. 不触发测试样例；
4. Eval 检查清单；
5. 后续 Improve 建议。

这个 Prompt 的重点不是让 Skill Creator“写得完整”，而是让它同时输出：

Skill 初稿；
触发样例；
不触发样例；
Eval 清单；
Improve 建议。

这样生成出来的 Skill 更容易进入迭代。

十五、Skill Creator 最容易犯的 5 个误区

误区 1：把 Skill 当成超长 Prompt

Skill 不是越长越好。

太长会挤占上下文，也会让模型抓不住重点。

更好的方式是：

Skill 写流程和红线；
references 放详细规则；
examples 放样例；
scripts 放确定性工具。

误区 2：一个 Skill 想包所有流程

比如一个 Skill 同时做：

需求评审
→ 测试点
→ 用例
→ 自动入库
→ 报告
→ 发消息

这很容易失控。

更好的方式是拆分：

需求评审 Skill
测试设计 Skill
用例生成 Skill
报告生成 Skill

误区 3：只写触发场景，不写不触发场景

不触发场景很重要。

否则 Skill 可能在不该工作的时候乱启动。

例如：

没有具体 PRD 时，不触发。
用户只是询问方法论时，不触发。
用户只是润色文字时，不触发。

误区 4：没有失败样例

没有失败样例，就不知道 Skill 会在哪里出错。

建议每个 Skill 至少准备：

2 个正向样例；
2 个边界样例；
2 个反向样例；
1 个容易误触发样例。

误区 5：没有自检

测试类 Skill 尤其需要自检。

因为它输出的内容可能进入测试平台或评审文档。

没有自检，AI 的合理推断很容易变成正式用例。

十六、小结

Skill Creator 不只是一个帮你生成 SKILL.md 的工具。

它真正适合做的是：

把一次性的工作经验，变成可复用、可评估、可改进的 Agent 能力。

对测试工程师来说，它的价值尤其明显。

因为测试工作里有大量可以沉淀的经验：

需求评审方法；
测试点设计规则；
边界值规则；
状态机规则；
权限测试规则；
多端收敛策略；
导出测试规则；
用例自检规则。

这些经验如果只存在测试工程师脑子里，AI 每次都要重新猜。

如果沉淀成 Skill，AI 才能稳定复用。

所以，使用 Skill Creator 时，不要只停留在：

帮我生成一个 Skill。

更好的目标是：

帮我设计一个能被测试、能被改进、能稳定复用的 Skill。

一句话总结：

Prompt 让 AI 完成一次任务，Skill 让 AI 复用一套能力。
Skill Creator 的价值，不是生成文件，而是帮助我们把经验产品化。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Claude Opus 4.8 发布：更强编程与更高诚实性

Claude Opus 4.8 发布，带来更强编程能力、更高诚实性，以及动态工作流功能。

AI编程社区

2026年ChatGPT Plus 还值得订阅吗？Plus 和 Pro 有什么区别？

AI编程社区

从零写一个51单片机C语言编译器有多难？

注：本文由DeepSeek AI撰写前言如果你问一个嵌入式工程师：“从零开始写一个C语言编译器，目标平台是8051单片机，而且不允许使用任何开源代码”

AI编程社区

所有评论(0)

查看更多评论

Empty-Filled

@lylfv

已为社区贡献1条内容

Skill Creator 不是帮你写一个 SKILL.md，而是把经验变成可复用能力

Empty-Filled

Skill Creator 不是帮你写一个 SKILL.md，而是把经验变成可复用能力

一、为什么需要 Skill，而不是只写 Prompt？

二、主流工具给我们的启发：Skill 是一个“小型工作系统”

三、Skill Creator 应该怎么用？

四、一个真实例子：把测试用例生成拆成 3 个 Skill

五、Skill Creator 第一步：先说清楚它要解决什么问题

六、Skill Creator 第二步：触发条件要收紧

七、Skill Creator 第三步：红线比流程更重要

八、Skill Creator 第四步：输出模板要短而稳定

九、Skill Creator 第五步：必须准备测试样例

样例 1：规则明确型需求

样例 2：规则缺失型需求

样例 3：待确认项型需求

十、Skill Creator 第六步：Eval 比 Create 更重要

十一、Skill Creator 第七步：Improve 要基于失败样例

十二、Skill Creator 第八步：Benchmark 看稳定性

十三、一个适合测试工程师的 Skill Creator 流程

十四、一个可直接复制的 Skill Creator 提示词

十五、Skill Creator 最容易犯的 5 个误区

误区 1：把 Skill 当成超长 Prompt

误区 2：一个 Skill 想包所有流程

误区 3：只写触发场景，不写不触发场景

误区 4：没有失败样例

误区 5：没有自检

十六、小结

所有评论(0)

温馨提示：您尚未绑定手机号

Empty-Filled