Skill 实验项目文件夹规范

来源:用户设计 | 保存日期:2026-06-02

目标:将 Hermes 上下文工程对照分析的结论,落地为可复现的对标实验

原图


目录结构

skill-experiments/
├── README.md                          # 项目简介:目标、范围、使用方法
├── .gitignore
│
├── experiments/                       # 实验集合
│   │
│   ├── e1-context-engineering/        # 实验1:上下文工程
│   │   ├── README.md                  # 实验说明(目标/方法/假设)
│   │   ├── setup/                     # 初始化脚本、配置
│   │   ├── runs/                      # 版本化运行记录
│   │   │   ├── v1-hermes-baseline/    # Hermes 基线测试
│   │   │   ├── v2-codex-control/      # Codex 对照测试
│   │   │   └── ...
│   │   ├── data/                      # 测试数据
│   │   │   ├── prompts/               # 测试用 Prompt
│   │   │   ├── tasks/                 # 任务定义
│   │   │   └── ...
│   │   ├── results/                   # 汇总结果
│   │   │   ├── metrics.json           # 量化指标
│   │   │   ├── summary.md             # 定性总结
│   │   │   ├── charts/                # 图表
│   │   │   └── observations/          # 观察记录
│   │   └── ...
│   │
│   ├── e2-tool-masking/               # 实验2:工具屏蔽
│   │   ├── README.md
│   │   ├── setup/
│   │   ├── runs/
│   │   ├── data/
│   │   ├── results/
│   │   └── ...
│   │
│   ├── e3-filesystem-memory/          # 实验3:文件系统记忆
│   │   └── ...
│   │
│   └── ...                            # 更多实验
│
├── shared/                            # 共享资源
│   ├── templates/                     # 实验模板
│   │   ├── experiment-README.md       # 实验说明模板
│   │   ├── run-log.md                 # 运行日志模板
│   │   ├── observations.md            # 观察记录模板
│   │   └── summary.md                 # 总结模板
│   ├── tools/                         # 共享工具脚本
│   └── ...

核心规范

实验编号规则

  • 格式:e{序号}-{英文短名}
  • 示例:e1-context-engineeringe2-tool-masking
  • 序号与实验的优先级/顺序对应

运行版本规则

  • 格式:v{序号}-{agent名}-{说明}
  • 示例:v1-hermes-baselinev2-codex-control
  • 每次改变一个变量(单一变量原则)

结果记录规则

每个实验必须产出:

  • metrics.json — 量化指标(延迟、token 消耗、成功率、缓存命中率等)
  • summary.md — 定性分析(发现、意外情况、教训)
  • observations/ — 原始观察日志

模板文件说明

shared/templates/ 中的模板定义了每个实验文档的标准格式,确保跨实验的一致性。


与 Manus 文章的对应关系

实验对应 Manus 原则核心问题
e1-context-engineeringKV 缓存命中率 + 上下文工程整体SOUL.md 静态性对缓存命中率的影响
e2-tool-masking屏蔽原则toolsets 启用/禁用对工具选择准确率的影响
e3-filesystem-memory文件系统作为扩展记忆文件引用 vs 上下文内容的权衡

设计理念

  • 可复现:每个 run 是独立目录,记录完整配置
  • 可对比:同一实验多个 agent 并行跑,结果放一起
  • 可积累:模板确保格式一致,便于跨实验比较
  • 单一变量:每个 run 只改一个变量,归因清晰