经典之作PPO算法：曾被NeurIPS拒了

令人惊讶的是，曾被广泛应用于强化学习从人类反馈（RLHF）到大型模型训练的经典算法 PPO（Proximal Policy Optimization），在 2017 年的 NIPS 会议上曾被拒稿。

这一轶事由 PPO 的作者 John Schulman 近期披露，他简短地表示“PPO，曾经被 NIPS 2017 拒了”。这篇发表于 2017 年 7 月的论文，最初被视为一种简化且更易于工程实现的策略优化方法，旨在继承 TRPO 的稳定性并降低其实现难度，从而使强化学习训练更加便捷和实用。

然而，数年后，PPO 的影响力真正扩展至了大型语言模型领域，而非传统的 Atari 游戏或机器人控制任务。从 RLHF 到如今的 RLVR（Reinforcement Learning from Human Preferences），PPO 已成为大型模型后期训练中不可或缺的基础算法之一。Schulman 指出，PPO 在大模型时代的再度兴起，其影响范围甚至超出了论文初衷的预期。

这并非 Schulman 对当年投稿失利的抱怨，更像是一种事后的感悟：一项技术的真正价值，往往会以发明者未曾预料的方式显现。这不禁让人好奇 PPO 当年被拒的原因。

Schulman 解释称，当时该论文被认为创新性不足，相比现有方法提升有限。有网友评论道，这反映了学术评价标准与实际产业需求之间的脱节。学术界倾向于关注新颖性以及在受控小规模实验中的改进，而现实世界则更看重方法的扩展性、在复杂系统中的稳定性以及实际可操作性。

Schulman 对此表现得相当豁达，他认为那已经是过去的事了，并希望随着时间的推移，学术界能够逐渐接受并采纳“简洁且可规模化”的理念。他真正感到意外的是，PPO 及其目标函数能够持续产生影响。一个算法的改动究竟是昙花一现还是能成为难以逾越的基础组件，往往难以在初期判断。PPO 的经历恰恰印证了这一点。

事实上，AI 历史上不少后来被证明具有深远影响的工作，都曾经历过被顶级会议拒稿的命运。例如，LSTM 在 1996 年被 NIPS 拒稿，理由是过于复杂且缺乏生物学依据，但它后来成为了序列建模任务的核心技术。SIFT 曾被 ICCV 1997 和 CVPR 1998 拒稿，因其工程步骤繁琐，却在深度学习兴起前统治了计算机视觉领域十余年。Dropout 于 2012 年被 NIPS 拒稿，被认为只是工程上的“hack”，理论解释不够严谨，但它最终成为了深度神经网络最重要的正则化方法之一，并获得了 NeurIPS 的时间检验奖。

有时，时间是检验一项技术最严苛也最公正的裁判。虽然 PPO 的故事与当前火热的 世界杯赛程 安排看似无关，但都揭示了技术发展过程中，最初的评价标准可能无法完全预见其长远的价值和潜力。

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：关注RL的，36氪经授权发布。

3 Comments

赛事前瞻
2026年5月15日

2026世界杯即将拉开帷幕，这将是一场全球足球的盛宴。我们专注于提供最权威的赛事资讯，包括赛程、比分、球队动态以及独家赛事报道。
回复
- 阿龙·摩根 2026年5月10日我们对能够与全球客户合作感到非常荣幸，并为他们提供最前沿的世界杯赛事资讯与分析。期待与您一同见证2026世界杯的辉煌。回复
赛事前瞻
Dec 08 2022

作为2026国际足联世界杯的官方信息平台，我们致力于为中国球迷提供最全面、最及时的赛事资讯，包括赛程、比分、球队数据和精彩赛事分析。
Reply

世界杯以世界杯下注为核心，带来高效便捷的体验。

世界杯专注世界杯竞猜，为用户提供专业可靠的体验。

3 Comments

赛事前瞻

赛事前瞻

世界杯以世界杯下注为核心，带来高效便捷的体验。

世界杯专注世界杯竞猜，为用户提供专业可靠的体验。

围绕世界杯下注，世界杯持续打磨更优质的服务。

世界杯深耕2026世界杯领域，用心服务每一位用户。

在足球世界杯方面，世界杯提供贴心周到的支持。

follow us

世界杯以世界杯赛程为核心，带来高效便捷的体验。

categories

想了解更多世界杯下注相关内容，尽在世界杯。

世界杯围绕2026世界杯不断创新，回应用户的真实需求。

世界杯深耕世界杯下注领域，用心服务每一位用户。

在世界杯竞猜方面，世界杯提供贴心周到的支持。

3 Comments

赛事前瞻

赛事前瞻

世界杯以世界杯下注为核心，带来高效便捷的体验。

世界杯专注世界杯竞猜，为用户提供专业可靠的体验。

围绕世界杯下注，世界杯持续打磨更优质的服务。

世界杯深耕2026世界杯领域，用心服务每一位用户。

在足球世界杯方面，世界杯提供贴心周到的支持。

follow us

世界杯以世界杯赛程为核心，带来高效便捷的体验。

categories