令人惊讶的是,曾被广泛应用于强化学习从人类反馈(RLHF)到大型模型训练的经典算法 PPO(Proximal Policy Optimization),在 2017 年的 NIPS 会议上曾被拒稿。

这一轶事由 PPO 的作者 John Schulman 近期披露,他简短地表示“PPO,曾经被 NIPS 2017 拒了”。这篇发表于 2017 年 7 月的论文,最初被视为一种简化且更易于工程实现的策略优化方法,旨在继承 TRPO 的稳定性并降低其实现难度,从而使强化学习训练更加便捷和实用。

然而,数年后,PPO 的影响力真正扩展至了大型语言模型领域,而非传统的 Atari 游戏或机器人控制任务。从 RLHF 到如今的 RLVR(Reinforcement Learning from Human Preferences),PPO 已成为大型模型后期训练中不可或缺的基础算法之一。Schulman 指出,PPO 在大模型时代的再度兴起,其影响范围甚至超出了论文初衷的预期。

这并非 Schulman 对当年投稿失利的抱怨,更像是一种事后的感悟:一项技术的真正价值,往往会以发明者未曾预料的方式显现。这不禁让人好奇 PPO 当年被拒的原因。

Schulman 解释称,当时该论文被认为创新性不足,相比现有方法提升有限。有网友评论道,这反映了学术评价标准与实际产业需求之间的脱节。学术界倾向于关注新颖性以及在受控小规模实验中的改进,而现实世界则更看重方法的扩展性、在复杂系统中的稳定性以及实际可操作性。

Schulman 对此表现得相当豁达,他认为那已经是过去的事了,并希望随着时间的推移,学术界能够逐渐接受并采纳“简洁且可规模化”的理念。他真正感到意外的是,PPO 及其目标函数能够持续产生影响。一个算法的改动究竟是昙花一现还是能成为难以逾越的基础组件,往往难以在初期判断。PPO 的经历恰恰印证了这一点。

事实上,AI 历史上不少后来被证明具有深远影响的工作,都曾经历过被顶级会议拒稿的命运。例如,LSTM 在 1996 年被 NIPS 拒稿,理由是过于复杂且缺乏生物学依据,但它后来成为了序列建模任务的核心技术。SIFT 曾被 ICCV 1997 和 CVPR 1998 拒稿,因其工程步骤繁琐,却在深度学习兴起前统治了计算机视觉领域十余年。Dropout 于 2012 年被 NIPS 拒稿,被认为只是工程上的“hack”,理论解释不够严谨,但它最终成为了深度神经网络最重要的正则化方法之一,并获得了 NeurIPS 的时间检验奖。

有时,时间是检验一项技术最严苛也最公正的裁判。虽然 PPO 的故事与当前火热的 世界杯赛程 安排看似无关,但都揭示了技术发展过程中,最初的评价标准可能无法完全预见其长远的价值和潜力。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注RL的,36氪经授权发布。

3 Comments

  • 赛事前瞻
    2026年5月15日

    2026世界杯即将拉开帷幕,这将是一场全球足球的盛宴。我们专注于提供最权威的赛事资讯,包括赛程、比分、球队动态以及独家赛事报道。

    回复
    • 阿龙·摩根 2026年5月10日 我们对能够与全球客户合作感到非常荣幸,并为他们提供最前沿的世界杯赛事资讯与分析。期待与您一同见证2026世界杯的辉煌。 回复
  • 赛事前瞻
    Dec 08 2022

    作为2026国际足联世界杯的官方信息平台,我们致力于为中国球迷提供最全面、最及时的赛事资讯,包括赛程、比分、球队数据和精彩赛事分析。

    Reply

世界杯以世界杯下注为核心,带来高效便捷的体验。

follow us

世界杯以世界杯赛程为核心,带来高效便捷的体验。