Skill 实验项目文件夹规范

来源：用户设计 | 保存日期：2026-06-02

目标：将 Hermes 上下文工程对照分析的结论，落地为可复现的对标实验

目录结构

skill-experiments/
├── README.md                          # 项目简介：目标、范围、使用方法
├── .gitignore
│
├── experiments/                       # 实验集合
│   │
│   ├── e1-context-engineering/        # 实验1：上下文工程
│   │   ├── README.md                  # 实验说明（目标/方法/假设）
│   │   ├── setup/                     # 初始化脚本、配置
│   │   ├── runs/                      # 版本化运行记录
│   │   │   ├── v1-hermes-baseline/    # Hermes 基线测试
│   │   │   ├── v2-codex-control/      # Codex 对照测试
│   │   │   └── ...
│   │   ├── data/                      # 测试数据
│   │   │   ├── prompts/               # 测试用 Prompt
│   │   │   ├── tasks/                 # 任务定义
│   │   │   └── ...
│   │   ├── results/                   # 汇总结果
│   │   │   ├── metrics.json           # 量化指标
│   │   │   ├── summary.md             # 定性总结
│   │   │   ├── charts/                # 图表
│   │   │   └── observations/          # 观察记录
│   │   └── ...
│   │
│   ├── e2-tool-masking/               # 实验2：工具屏蔽
│   │   ├── README.md
│   │   ├── setup/
│   │   ├── runs/
│   │   ├── data/
│   │   ├── results/
│   │   └── ...
│   │
│   ├── e3-filesystem-memory/          # 实验3：文件系统记忆
│   │   └── ...
│   │
│   └── ...                            # 更多实验
│
├── shared/                            # 共享资源
│   ├── templates/                     # 实验模板
│   │   ├── experiment-README.md       # 实验说明模板
│   │   ├── run-log.md                 # 运行日志模板
│   │   ├── observations.md            # 观察记录模板
│   │   └── summary.md                 # 总结模板
│   ├── tools/                         # 共享工具脚本
│   └── ...

核心规范

实验编号规则

格式：e{序号}-{英文短名}
示例：e1-context-engineering、e2-tool-masking
序号与实验的优先级/顺序对应

运行版本规则

格式：v{序号}-{agent名}-{说明}
示例：v1-hermes-baseline、v2-codex-control
每次改变一个变量（单一变量原则）

结果记录规则

每个实验必须产出：

metrics.json — 量化指标（延迟、token 消耗、成功率、缓存命中率等）
summary.md — 定性分析（发现、意外情况、教训）
observations/ — 原始观察日志

模板文件说明

shared/templates/ 中的模板定义了每个实验文档的标准格式，确保跨实验的一致性。

与 Manus 文章的对应关系

实验	对应 Manus 原则	核心问题
e1-context-engineering	KV 缓存命中率 + 上下文工程整体	SOUL.md 静态性对缓存命中率的影响
e2-tool-masking	屏蔽原则	toolsets 启用/禁用对工具选择准确率的影响
e3-filesystem-memory	文件系统作为扩展记忆	文件引用 vs 上下文内容的权衡

设计理念

可复现：每个 run 是独立目录，记录完整配置
可对比：同一实验多个 agent 并行跑，结果放一起
可积累：模板确保格式一致，便于跨实验比较
单一变量：每个 run 只改一个变量，归因清晰

Hermes Wiki

探索

Skill实验项目文件夹规范

Skill 实验项目文件夹规范

目录结构

核心规范

实验编号规则

运行版本规则

结果记录规则

模板文件说明

与 Manus 文章的对应关系

设计理念

关系图谱

目录