腾讯 AI 下半场:姚顺雨 × 汤道生对谈

来源:腾讯官方对谈(2026-06-05),游戏日报整理发布
人物:姚顺雨(腾讯首席 AI 科学家,ReAct 论文作者)、汤道生(腾讯集团高级执行副总裁、CSIG CEO)


AI 下半场的核心判断

什么是”下半场”?

姚顺雨在 2025 年博客中提出此概念:

“方法论已经变得非常成熟,但寻找问题变得更加困难。有了预训练和后训练之后,我们有了一个万能锤子,可以解决各种各样的问题,反而更困难的是怎么寻找好的问题去解决。“

两个关键判断

判断观点
短期游戏 vs 长期游戏AI 是长期游戏,刚开始,方向会更多元
线性 vs 多元未来会变得更多元,不仅是 Coding Agent,还有多模态、具身智能等

加入腾讯的三大原因

  1. 好问题和好产品 — 腾讯有丰富的产品场景,提供真实问题
  2. Context 优势 — 竞争壁垒在于是否有最原始的输入(用户行为、企业信息)
  3. 文化 — 坦诚、基于信任而非指标运转、Low ego、长期主义

AI 组织的三角形架构

         Frontier(前沿探索)
            /    \
           /      \
Foundation ———— Product
(预训练+后训练)   (产品应用)
  • Foundation:充足资源 + 正确的做事方式
  • Product:好的产品 sense + 做产品的人
  • Frontier:探索新研究范式,中国在这方面投入不够

Co-Design 方法论

模型与产品深度协同的三个要点

  1. Foundation 要 solid — 预训练是产品无关的,可泛化学习带来持续价值提升
  2. 设立正确的 Eval — 实用性价值 > 刷榜价值,基于真实产品构造评估
  3. 泛化性是 LLM 时代的本质区别 — 即使做 Coding Agent,也需要聊天、搜索、推理等复合能力

Co-Design 的核心挑战

  • 建立信任:模型团队和产品团队目标不完全对齐,需要换位思考
  • 对齐:产品目标、数据标注、评测标准需要在多角色间对齐
  • 案例:腾讯派后训练骨干去帮元宝做后训练,建立互信,为后续 Hy3 成功上线奠定基础

Benchmark vs 真实世界 Eval

维度Benchmark真实产品 Eval
问题精确度非常精确,长描述模糊,一两句,不停追问
覆盖面容易 overfitting发现底线问题
价值有参考价值但不充分推进新领域,获得灵感

Agent 战略

姚顺雨的 Agent 研究历程

  • 2019 博士论文:Language Agent: from next token prediction to digital automation
  • 2022.07:首次将 LLM(PaLM 2)与 Wikipedia API 连接做多轮交互 → ReAct 架构诞生
  • 创建的任务:WebShop(Web Agent)、InterCode(Coding Agent)、SWE-bench
  • 博士论文 future work(2024 写):① train models for Agent ② shift and robust deployment ③ scientific discovery ④ help human

Coding Agent 是图灵完备的

“当你有能力去控制自己的 file system,当你有一个 container 的时候,你是一个 complete system。“

Agent 的关键能力

  1. 性能第一 — 用 Opus 这样的好模型比差模型更省钱(一次做对)
  2. 简单任务的 Robustness — 一次把相对简单任务做对,性价比更关键
  3. 成本优化 — 小模型比肩大模型性能 + 架构创新(长文管理、脚手架)

Agent 时代的产品组织变化

  • 扁平化小团队(3-5 人),围绕领域攻坚
  • 大量试验,包容试错
  • 工程师变成”有想法的 leader”,驱动多个 Coding Agent
  • 角色融合:每个工程师也是产品经理

混元 3(Hy3)Preview

姚顺雨透露的核心改变:

  1. Infrastructure 重建 — 预训练和强化学习的基础设施全面重建
  2. 数据和 Eval 革命 — 定义更真实的问题、丰富数据 taxonomy、提高质量
  3. 决策和节奏 — 招人、模型发布节奏、Trade off,Taste-driven

关键引用

“今天就像是 70 年代 PC 刚刚产生的时候,还有很多很多事情需要做。”

“能不能诚实面对自己,能不能 Be Real,能不能看到 feedback 然后去改变,能不能保持耐心——这是下半场最重要的事情。”

“我觉得最重要的是 context,很多时候你的竞争壁垒就在于你有没有最原始的输入。“

相关页面