硅谷知名播客主持人 Dwarkesh Patel 提出了一个关于未来人工智能训练模式的探讨。这位年仅 25 岁的 Dwarkesh Podcast 主持人,采访过 Ilya Sutskever、Andrej Karpathy 等众多行业领袖,并被 TIME 评为 2024 年 TIME100 AI 之一,其播客已成为 AI 从业者的重要信息来源。

Patel 指出,当前前沿 AI 实验室普遍采用的训练路线是 RLVR,即“可验证奖励强化学习”。这种方法让模型在大量可自动判定对错的任务中进行反复试错,以培养其规划、纠错、迭代和长期执行能力。代码和数学领域的快速进展很大程度上得益于此。然而,Patel 深入追问:仅仅依靠“可验证任务训练”是否足以支撑下一代 AI 的发展?

他认为,仅仅“可验证”是不够的,任务还必须具备“可刷性”,即“grindability”——能够被大规模、重复地进行训练。代码和数学问题便属于此类,可以轻松复制训练环境,让大量代理(agent)并行尝试。

Patel 提出了一个关键问题:为何 AI 在“使用电脑”方面的进展相对缓慢?尽管电脑操作的结果(如订单是否成功)可以验证,但其过程难以大规模复制和回放。例如,无法让成千上万个代理同时在真实网站上执行相同的结账流程,因为真实网站会检测并封禁机器人。虽然可以创建模拟器,但这在当前成本高昂且扩展性差。他强调,AI 在某个领域进步迅速,不仅因为答案可验证,更因为该领域能够被构建成可复制、可回放、可并行试错的训练环境。

Patel 将讨论引向更复杂的现实世界任务,如创业、打官司、市场盈利或赢得选举。这些任务虽然有最终结果,但反馈周期长、变量多、环境不可重置且难以在数据中心复制。他指出,这类环境在强化学习中属于“reset-free、non-stationary”,即不能随意重置且持续变化。因此,他质疑 RLVR 训练出的代理能否有效泛化到这些真实世界任务。

乐观者认为,足够多且复杂的 RLVR 环境最终能让模型习得通用能力,并迁移到更广泛的领域。但 Patel 持谨慎态度,他认为真实世界最有价值的知识往往不以清晰、可验证的方式呈现,可能隐藏在模糊的客户反馈、失败的会议或组织内部的隐性流程中。模型要掌握这些,需要真正的样本效率,而非仅仅“刷题”。

这引出了他认为下一代训练范式必须解决的核心问题:“learning back to the weights”,即将学习到的经验固化到模型权重中。当前大模型擅长“in-context learning”,能在会话中临时适应,但会话结束后,这些学习往往不会真正“长记性”。Patel 认为,模型在真实部署中获得的经验——用户使用、组织参与、任务执行、错误暴露——才是最有价值的训练信号,但如果这些经验无法沉淀回模型权重,就只是一次短暂的适应。他以人类学习为例,员工的成长并非源于记住所有细节,而是将经历压缩为判断力、直觉和流程理解。模型也应如此,真正的持续学习是将真实经验提炼成少量有用的知识并压缩进权重。

为实现这一点,他提出了两个可能的方向。一是 on-policy self-distillation (OPSD),即让一个在长会话中积累了丰富经验的模型充当“教师”,训练基础模型在没有完整上下文的情况下也能做出类似判断,将学到的东西“蒸馏”回模型权重。这区别于简单的 SFT,后者可能只是复述细节,而 OPSD 侧重于提炼关键洞见,且不一定需要外部可验证奖励,能提供比传统 RL 更密集的监督信号。

二是 dreaming,即 AI 根据真实世界观察自行构建模拟环境,并在其中反复练习和强化有效行为。这与 model-based RL 相似,但置于大模型和真实部署的语境中。例如,AI 在观察到真实公司业务流程后,会构建该流程的“游戏版模拟环境”,并在其中测试不同策略,最后将模拟练习的经验压缩回模型。Patel 认为,这可能开辟新的“scaling axis”,即“test-time training”或“dreaming”,使模型在推理和任务执行过程中为特定用户或项目构造模拟环境并自我训练。这与 David Silver 和 Richard Sutton 强调的智能体从与环境互动中获取经验的观点不谋而合。

Patel 设想,到 2027 或 2028 年,训练流程可能变为:首先,通过 RLVR 训练出基本能力的 agent;然后,将 agent 部署到真实世界执行任务,与用户连续工作;一周后,根据用户反馈(如 thumbs up/down 或评价),将任务中学到的经验通过 OPSD 或 dreaming 等技术蒸馏回基础模型。一旦此路径跑通,AI 的能力边界将不再受限于初始的“可验证任务”,而是能通过真实部署学习组织管理、复杂协作等,并以此为基础进一步扩展。

这意味着 AI 进步的主要驱动力将发生转变。过去模型发布前训练完成,用户仅使用。未来,模型可能先发布基础 agent,然后在海量真实任务中持续学习,每一次交互、项目执行、失败与修正都可能成为能力提升的材料。因此,Patel 所言的“下一代训练范式”,并非仅仅是模型更大、数据更多或 RL 更强,而是指向 AI 从“发布前训练”转向“发布后学习”,从“人类数据”转向“环境经验”,从“上下文里的临时适应”走向“权重里的长期能力”。未来最重要的 AI 训练数据,可能将是 AI 在真实世界中完成真实任务时,自己积累的经验。

3 Comments

  • 赛事前瞻
    2026年5月15日

    2026世界杯即将拉开帷幕,这将是一场全球足球的盛宴。我们专注于提供最权威的赛事资讯,包括赛程、比分、球队动态以及独家赛事报道。

    回复
    • 阿龙·摩根 2026年5月10日 我们对能够与全球客户合作感到非常荣幸,并为他们提供最前沿的世界杯赛事资讯与分析。期待与您一同见证2026世界杯的辉煌。 回复
  • 赛事前瞻
    Dec 08 2022

    作为2026国际足联世界杯的官方信息平台,我们致力于为中国球迷提供最全面、最及时的赛事资讯,包括赛程、比分、球队数据和精彩赛事分析。

    Reply

世界杯以世界杯下注为核心,带来高效便捷的体验。

follow us

世界杯以世界杯赛程为核心,带来高效便捷的体验。