Anthropic:当 AI 开始构建自己

来源:Anthropic 官方文章《When AI builds itself》(2026-06-05)
翻译:数字生命卡兹克 | 补充来源:AI寒武纪


核心概念:递归自我改进

递归自我改进(Recursive Self-Improvement)是指 AI 系统能够完全自主地设计和开发自己下一代的场景。Anthropic 认为这一趋势正在加速,虽然尚未完全实现,但到来的速度可能远超大多数机构的预期。

AI 发展时间线

阶段时间特征
构建初代 Claude2021–2023人类在笔记本上写代码、写文档
聊天机器人辅助2023–2025用聊天机器人生成代码片段,复制到编辑器
编程智能体2025–2026Agent 自主编写修改代码,完成整个文件
自主智能体今天Agent 自己运行代码,委派数小时工作给其他 Agent
闭合回路20XX?Agent 自行构建和训练模型

外部基准测试证据

  • 任务时长翻倍周期:从每 7 个月翻一番缩短到每 4 个月翻一番
  • SWE-bench(真实世界软件工程):从个位数到饱和仅用 2 年
  • CORE-Bench(复现研究):成功率从 20% 到饱和仅 15 个月
  • Claude 任务能力演进
    • 2024.03 — Opus 3:~4 分钟任务
    • 2025.03 — Sonnet 3.7:~1.5 小时任务
    • 2026.05 — Opus 4.6:~12 小时任务

Anthropic 内部数据

工程领域

  • 代码占比:2026年5月,Anthropic 合并代码中 80%+ 由 Claude 编写(2025年初为个位数)
  • 工程师产出:2026 Q2 典型工程师每天合并代码量是 2024 年的 8 倍
  • 生产力倍数:130 人调研中位数估计,使用 Mythos Preview 让产出变为 4 倍
  • 案例:Claude 交付 800 个修复,将一类 API 错误降低 1000 倍(人类需 4 年)

代码质量

  • 2025 末:Claude 代码质量略逊于人类工程师
  • 2026 中:大致持平
  • 预计年内:明确超越人类
  • 最开放任务成功率:2026.05 达到 76%(6 个月提升 50 个百分点)

研究领域

  • 代码加速实验:Mythos Preview 将代码速度提升 52 倍(人类研究员 4-8 小时达 4 倍)
  • 研究判断力:2025.11 Opus 4.5 有 51% 概率做出比人类更好的选择 → 2026.04 Mythos Preview 提升到 64%
  • 自主研究:Claude Agent 独立完成 AI 安全研究,弥合 97% 的可扩展监督差距(人类一周弥合 23%)

三种未来情景

情景一:趋势停滞

  • 增长可能是 S 曲线而非指数
  • 研究品味可能无法通过堆算力获得
  • 即使如此,当前能力已足以引发重大变化(如 Project Glasswing 发现 10000+ 高危漏洞)
  • 给世界留下的适应时间最多

情景二:复合效率增益(最可能)

  • AI 开发大幅自动化,人类继续设定方向
  • 100 人公司完成万人甚至十万人组织的工作量
  • 阿姆达尔定律效应:瓶颈从写代码转移到审查代码

情景三:完全递归自我改进

  • AI 设计和改进自身,速度取决于可用算力
  • 对齐问题不确定性最大
  • 经济体系可能被根本性重塑

安全与协调

Anthropic 的立场:

  1. 有效减缓技术发展速度可能是好事,但不能让最不谨慎者追上
  2. 需要全球协调机制:多家、多国前沿实验室的可验证停止协议
  3. 核查困难:训练运行比导弹发射井更容易隐藏
  4. 单方面暂停效果有限,需要更广泛的审议进程

关键引用

“人类目前仍保有比较优势的领域是研究品味和判断力:选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。”

“执行层面的工作,写代码、跑实验、产出结果,在人力时间上的成本已经趋近于零。”

“那 99% 的汗水正在被越来越多地自动化。“

相关页面