Skill 实验项目文件夹规范
来源:用户设计 | 保存日期:2026-06-02
目标:将 Hermes 上下文工程对照分析的结论,落地为可复现的对标实验
目录结构
skill-experiments/
├── README.md # 项目简介:目标、范围、使用方法
├── .gitignore
│
├── experiments/ # 实验集合
│ │
│ ├── e1-context-engineering/ # 实验1:上下文工程
│ │ ├── README.md # 实验说明(目标/方法/假设)
│ │ ├── setup/ # 初始化脚本、配置
│ │ ├── runs/ # 版本化运行记录
│ │ │ ├── v1-hermes-baseline/ # Hermes 基线测试
│ │ │ ├── v2-codex-control/ # Codex 对照测试
│ │ │ └── ...
│ │ ├── data/ # 测试数据
│ │ │ ├── prompts/ # 测试用 Prompt
│ │ │ ├── tasks/ # 任务定义
│ │ │ └── ...
│ │ ├── results/ # 汇总结果
│ │ │ ├── metrics.json # 量化指标
│ │ │ ├── summary.md # 定性总结
│ │ │ ├── charts/ # 图表
│ │ │ └── observations/ # 观察记录
│ │ └── ...
│ │
│ ├── e2-tool-masking/ # 实验2:工具屏蔽
│ │ ├── README.md
│ │ ├── setup/
│ │ ├── runs/
│ │ ├── data/
│ │ ├── results/
│ │ └── ...
│ │
│ ├── e3-filesystem-memory/ # 实验3:文件系统记忆
│ │ └── ...
│ │
│ └── ... # 更多实验
│
├── shared/ # 共享资源
│ ├── templates/ # 实验模板
│ │ ├── experiment-README.md # 实验说明模板
│ │ ├── run-log.md # 运行日志模板
│ │ ├── observations.md # 观察记录模板
│ │ └── summary.md # 总结模板
│ ├── tools/ # 共享工具脚本
│ └── ...
核心规范
实验编号规则
- 格式:
e{序号}-{英文短名} - 示例:
e1-context-engineering、e2-tool-masking - 序号与实验的优先级/顺序对应
运行版本规则
- 格式:
v{序号}-{agent名}-{说明} - 示例:
v1-hermes-baseline、v2-codex-control - 每次改变一个变量(单一变量原则)
结果记录规则
每个实验必须产出:
metrics.json— 量化指标(延迟、token 消耗、成功率、缓存命中率等)summary.md— 定性分析(发现、意外情况、教训)observations/— 原始观察日志
模板文件说明
shared/templates/ 中的模板定义了每个实验文档的标准格式,确保跨实验的一致性。
与 Manus 文章的对应关系
| 实验 | 对应 Manus 原则 | 核心问题 |
|---|---|---|
| e1-context-engineering | KV 缓存命中率 + 上下文工程整体 | SOUL.md 静态性对缓存命中率的影响 |
| e2-tool-masking | 屏蔽原则 | toolsets 启用/禁用对工具选择准确率的影响 |
| e3-filesystem-memory | 文件系统作为扩展记忆 | 文件引用 vs 上下文内容的权衡 |
设计理念
- 可复现:每个 run 是独立目录,记录完整配置
- 可对比:同一实验多个 agent 并行跑,结果放一起
- 可积累:模板确保格式一致,便于跨实验比较
- 单一变量:每个 run 只改一个变量,归因清晰
