Anthropic:当 AI 开始构建自己
来源:Anthropic 官方文章《When AI builds itself》(2026-06-05)
翻译:数字生命卡兹克 | 补充来源:AI寒武纪
核心概念:递归自我改进
递归自我改进(Recursive Self-Improvement)是指 AI 系统能够完全自主地设计和开发自己下一代的场景。Anthropic 认为这一趋势正在加速,虽然尚未完全实现,但到来的速度可能远超大多数机构的预期。
AI 发展时间线
| 阶段 | 时间 | 特征 |
|---|---|---|
| 构建初代 Claude | 2021–2023 | 人类在笔记本上写代码、写文档 |
| 聊天机器人辅助 | 2023–2025 | 用聊天机器人生成代码片段,复制到编辑器 |
| 编程智能体 | 2025–2026 | Agent 自主编写修改代码,完成整个文件 |
| 自主智能体 | 今天 | Agent 自己运行代码,委派数小时工作给其他 Agent |
| 闭合回路 | 20XX? | Agent 自行构建和训练模型 |
外部基准测试证据
- 任务时长翻倍周期:从每 7 个月翻一番缩短到每 4 个月翻一番
- SWE-bench(真实世界软件工程):从个位数到饱和仅用 2 年
- CORE-Bench(复现研究):成功率从 20% 到饱和仅 15 个月
- Claude 任务能力演进:
- 2024.03 — Opus 3:~4 分钟任务
- 2025.03 — Sonnet 3.7:~1.5 小时任务
- 2026.05 — Opus 4.6:~12 小时任务
Anthropic 内部数据
工程领域
- 代码占比:2026年5月,Anthropic 合并代码中 80%+ 由 Claude 编写(2025年初为个位数)
- 工程师产出:2026 Q2 典型工程师每天合并代码量是 2024 年的 8 倍
- 生产力倍数:130 人调研中位数估计,使用 Mythos Preview 让产出变为 4 倍
- 案例:Claude 交付 800 个修复,将一类 API 错误降低 1000 倍(人类需 4 年)
代码质量
- 2025 末:Claude 代码质量略逊于人类工程师
- 2026 中:大致持平
- 预计年内:明确超越人类
- 最开放任务成功率:2026.05 达到 76%(6 个月提升 50 个百分点)
研究领域
- 代码加速实验:Mythos Preview 将代码速度提升 52 倍(人类研究员 4-8 小时达 4 倍)
- 研究判断力:2025.11 Opus 4.5 有 51% 概率做出比人类更好的选择 → 2026.04 Mythos Preview 提升到 64%
- 自主研究:Claude Agent 独立完成 AI 安全研究,弥合 97% 的可扩展监督差距(人类一周弥合 23%)
三种未来情景
情景一:趋势停滞
- 增长可能是 S 曲线而非指数
- 研究品味可能无法通过堆算力获得
- 即使如此,当前能力已足以引发重大变化(如 Project Glasswing 发现 10000+ 高危漏洞)
- 给世界留下的适应时间最多
情景二:复合效率增益(最可能)
- AI 开发大幅自动化,人类继续设定方向
- 100 人公司完成万人甚至十万人组织的工作量
- 阿姆达尔定律效应:瓶颈从写代码转移到审查代码
情景三:完全递归自我改进
- AI 设计和改进自身,速度取决于可用算力
- 对齐问题不确定性最大
- 经济体系可能被根本性重塑
安全与协调
Anthropic 的立场:
- 有效减缓技术发展速度可能是好事,但不能让最不谨慎者追上
- 需要全球协调机制:多家、多国前沿实验室的可验证停止协议
- 核查困难:训练运行比导弹发射井更容易隐藏
- 单方面暂停效果有限,需要更广泛的审议进程
关键引用
“人类目前仍保有比较优势的领域是研究品味和判断力:选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。”
“执行层面的工作,写代码、跑实验、产出结果,在人力时间上的成本已经趋近于零。”
“那 99% 的汗水正在被越来越多地自动化。“
相关页面
- Hermes上下文工程对照分析 - 对标Manus — Agent 架构对照分析
- Claude配置的四层约束架构 — Claude 约束层级设计