Anthropic：当 AI 开始构建自己

来源：Anthropic 官方文章《When AI builds itself》（2026-06-05）
翻译：数字生命卡兹克 | 补充来源：AI寒武纪

核心概念：递归自我改进

递归自我改进（Recursive Self-Improvement）是指 AI 系统能够完全自主地设计和开发自己下一代的场景。Anthropic 认为这一趋势正在加速，虽然尚未完全实现，但到来的速度可能远超大多数机构的预期。

AI 发展时间线

阶段	时间	特征
构建初代 Claude	2021–2023	人类在笔记本上写代码、写文档
聊天机器人辅助	2023–2025	用聊天机器人生成代码片段，复制到编辑器
编程智能体	2025–2026	Agent 自主编写修改代码，完成整个文件
自主智能体	今天	Agent 自己运行代码，委派数小时工作给其他 Agent
闭合回路	20XX？	Agent 自行构建和训练模型

外部基准测试证据

任务时长翻倍周期：从每 7 个月翻一番缩短到每 4 个月翻一番
SWE-bench（真实世界软件工程）：从个位数到饱和仅用 2 年
CORE-Bench（复现研究）：成功率从 20% 到饱和仅 15 个月
Claude 任务能力演进：
- 2024.03 — Opus 3：~4 分钟任务
- 2025.03 — Sonnet 3.7：~1.5 小时任务
- 2026.05 — Opus 4.6：~12 小时任务

Anthropic 内部数据

工程领域

代码占比：2026年5月，Anthropic 合并代码中 80%+ 由 Claude 编写（2025年初为个位数）
工程师产出：2026 Q2 典型工程师每天合并代码量是 2024 年的 8 倍
生产力倍数：130 人调研中位数估计，使用 Mythos Preview 让产出变为 4 倍
案例：Claude 交付 800 个修复，将一类 API 错误降低 1000 倍（人类需 4 年）

代码质量

2025 末：Claude 代码质量略逊于人类工程师
2026 中：大致持平
预计年内：明确超越人类
最开放任务成功率：2026.05 达到 76%（6 个月提升 50 个百分点）

研究领域

代码加速实验：Mythos Preview 将代码速度提升 52 倍（人类研究员 4-8 小时达 4 倍）
研究判断力：2025.11 Opus 4.5 有 51% 概率做出比人类更好的选择 → 2026.04 Mythos Preview 提升到 64%
自主研究：Claude Agent 独立完成 AI 安全研究，弥合 97% 的可扩展监督差距（人类一周弥合 23%）

三种未来情景

情景一：趋势停滞

增长可能是 S 曲线而非指数
研究品味可能无法通过堆算力获得
即使如此，当前能力已足以引发重大变化（如 Project Glasswing 发现 10000+ 高危漏洞）
给世界留下的适应时间最多

情景二：复合效率增益（最可能）

AI 开发大幅自动化，人类继续设定方向
100 人公司完成万人甚至十万人组织的工作量
阿姆达尔定律效应：瓶颈从写代码转移到审查代码

情景三：完全递归自我改进

AI 设计和改进自身，速度取决于可用算力
对齐问题不确定性最大
经济体系可能被根本性重塑

安全与协调

Anthropic 的立场：

有效减缓技术发展速度可能是好事，但不能让最不谨慎者追上
需要全球协调机制：多家、多国前沿实验室的可验证停止协议
核查困难：训练运行比导弹发射井更容易隐藏
单方面暂停效果有限，需要更广泛的审议进程

关键引用

“人类目前仍保有比较优势的领域是研究品味和判断力：选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。”

“执行层面的工作，写代码、跑实验、产出结果，在人力时间上的成本已经趋近于零。”

“那 99% 的汗水正在被越来越多地自动化。“

Hermes Wiki

探索

Anthropic - 当AI开始构建自己

Anthropic：当 AI 开始构建自己

核心概念：递归自我改进

AI 发展时间线

外部基准测试证据

Anthropic 内部数据

工程领域

代码质量

研究领域

三种未来情景

情景一：趋势停滞

情景二：复合效率增益（最可能）

情景三：完全递归自我改进

安全与协调

关键引用

相关页面

关系图谱

目录

反向链接