当前位置：首页 > news >正文

曾被顶会拒稿的PPO算法，如今成大模型后训练绕不开的基础算法！

news 2026/6/22 9:41:58

【导语：PPO算法作为后来在RLHF和大模型训练中被广泛使用的经典算法，曾被NIPS 2017拒之门外。而AI史上不少后来被证明影响深远的工作，都曾在最初投稿时被顶会拒稿，时间才是最严格、也最公平的评审。】

PPO算法：从被拒到走向更大舞台

PPO（Proximal Policy Optimization）这个经典算法，最早在2017年7月发布的论文，当时看起来只是一个更简单、更工程友好的策略优化算法。它的目标是在保留TRPO稳定性的同时，降低实现复杂度，让强化学习训练更好调、更实用。但当年却被NIPS 2017拒之门外，最近由PPO作者John Schulman本人提起此事。

几年之后，真正把PPO推向更大舞台的，不是Atari、机器人控制这些传统强化学习任务，而是大语言模型。从RLHF到今天的RLVR，PPO成了大模型后训练里绕不开的基础算法之一。按照Schulman的说法，PPO在LLM时代迎来第二波热潮，原因甚至超出了原论文当年的预期。

PPO被拒原因：创新性有限、提升不明显

Schulman后来给出PPO被拒的解释是，这篇论文在当时被认为创新性有限，相比已有基线方法的提升也不够明显。有网友评论这背后折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性，以及在小规模、受控实验环境下相对基线的提升；而真实世界更在意的是方法能不能扩展到更大规模，能不能在复杂系统里保持稳定，能不能真正跑得起来。

时间检验：AI史上被拒稿的深远影响工作

其实不止PPO，AI史上不少后来被证明影响深远的工作，都曾在最初投稿时被顶会拒之门外。比如LSTM在1996年被NIPS拒稿，当时被认为过于复杂、缺乏生物学合理性，但后来成为语音识别、机器翻译等序列建模任务的核心技术。

SIFT曾被ICCV 1997、CVPR 1998拒稿，原因是工程步骤繁琐、不够优雅，但它后来统治前深度学习时代的计算机视觉十多年。Dropout在2012年被NIPS拒稿，被认为像工程hack、理论解释不够严谨，但它后来成为深度神经网络最重要的正则化方法之一，并获得NeurIPS时间检验奖。

编辑观点：PPO等算法的经历表明，学术评价与产业需求存在差异，时间会证明技术的真正价值，不应仅以学术评审的一时结果来评判技术的潜力。

http://www.cnnetsun.cn/news/2984244.html

相关文章：

双模式虚拟代理在远程心理治疗中的应用：架构、技术与伦理

Qwen 3.5深度解析：MoE架构、开源工程栈与多模态状态机实战

基于多智能体与溯源机制的远程患者监测系统误报抑制策略

AI 驱动智能合约审计：从静态分析到 LLM 辅助漏洞检测的工程实践

原型基础概念模型：破解AI语义对齐难题，构建可解释性AI系统

基于低维几何嵌入与质心估计的流行病源定位算法

RISE方法实战：基于梯度分解评估LLM训练数据影响力

Ubuntu 18.04下用Docker Compose部署Eclipse Theia云IDE

告别网络焦虑：番茄小说下载器，你的随身离线图书馆解决方案

Rust错误处理模式与生产级代码组织：让每一步失败都有迹可循

阿里Qoder 1.0：AI驱动的自动驾驶开发范式

Java堆内存与栈内存的本质差异与协同故障排查

大模型自蒸馏：从高维流形对齐视角解析性能提升原理与工程实践

快速配置100个公共BitTorrent Tracker：彻底解决BT下载慢速的完整方案

Appium Inspector 配置与元素定位实战：告别 Android UI 自动化测试的定位难题

Zion BYOM架构解析：如何工程化接入Gemini 3.5 Flash

基于LCU API的本地化英雄联盟客户端工具链深度解析

Wildcard招创始应用机器学习工程师，月薪13 - 25万，还有股权！

本地生活门店人气榜诊断模型：指标、路径与执行

Qwen3模型结构深度解析：从Flash Attention分块到多模态钩子设计

再制造的标杆企业

Kimi K2.6：多模态Agent落地的工程分水岭

DeepSeekMoE V4：从软件调度到硬件原生的MoE范式革命

非线性随机密度控制：高斯混合模型与薛定谔桥的工程实践

云原生数据科学教学平台：K8s+JupyterHub支撑2万人并发

Go字符串底层原理与高性能拼接实战指南

Go panic处理：从错误兜底到系统性崩溃治理

CentOS 7 Docker Swarm 防火墙配置：firewalld 与 iptables 协同方案

大语言模型量化预测能力评估：从置信区间到概率校准的挑战与实践

2026年腾讯混元API接入必须重写的三大底层逻辑