当前位置：首页 > news >正文

DAPO浅析

news 2026/7/2 15:55:06

目标：

降低错误样本的长度 (token-level loss)

训练更加稳定 (overlong filter)

避免generation entropy的塌陷（higher clip）

提高训练效率（dynamic sample）

Method

整体优化目标如下

(

)

∼

{

}

∼

(

⋅

)

[

∑

min

(

)

(

)

−

)

]

{

(

)

}

其中

(

)

(

)

(

)

−

(

{

}

)

(

{

}

)

这里DAPO剔除了KL散度惩罚项，它认为

在RLHF场景下，RL的目标是在不偏离原是模型分布下对齐人类偏好（即仅学习人类偏好，而不改变模型原有知识能力），因此需要添加KL惩罚项。

然而在训练long-cot的reasoning模型时，其目标是为了提升模型的能力（math、推理、code等）训练前后的模型分布可以是显著不一样的，KL惩罚项可能会限制模型的探索新知识的能力，因此去除。

分为以下四个方面

1. Raise the Ceiling: Clip-Higher

考虑到clip的是一个概率的比值

，在

不同的情况下，会影响clip的范围

例如

0.1

，

0.2

, 此时比值为

，此时policy会认为模型前后变化过大，而不训练此数据。但这条数据是值得训练的，只是old的概率比较小。

虽然比值是2倍，但其实数值上只多了0.1，因此还是需要被训练的，并没有影响收敛。

同时，实验也验证了上面发现的问题。实验发现GRPO中被clip掉的token的平均概率的最大值均小于0.2 ，即

max

[

(

)

∼

{

}

∼

(

⋅

)

∼

(

)

]

0.2

image-20251018164023025

大量小概率的token被clip掉了，这验证了

阻碍了低概率token 概率的增长。

因此可以提高上限

来提高A>0的低概率token的概率，从而避免entropy变小的过快，输出单一化。

image-20251018153934403

值得注意的现象，提高

之后：

RL的avg@32更高的

避免了熵塌的现象（因为高的

鼓励模型探索原先小概率的正向轨迹，提高了多样性）

此外，old模型小概率sample并没有影响原有

这是因为，

是在A<0的sample起作用，若重要性采样的比值很大，并不会对A<0的token进行裁剪。

2. The More the Merrier: Dynamic Sampling

考虑到如果一个sample的G个rollout的奖励

{

}

都是0或都是1，那么所有的优势A都是0，这并不会更新policy，会导致效率低下

因此使用动态采样的方法，一直采样直到一个sample的G个rollout的R 不全是0 或不全是1.

{

(

)

}

上述公示的含义是，对于QA对

(

)

，

和答案

相同的个数在

(

)

的区间内。

3. Rebalancing Act: Token-Level Policy Gradient Loss

DAPO任务 sample-level的loss（每个rollout的贡献度是一样的），然后不同rollout的长度不一样，过长的样本对模型的影响更大一些：

过长的样本会导致模型难以学习推理模式【置信度低，困惑度高】

过长的样本中存在一些不必要的重复的话【长度增长过快】

因此使用token-level的技术，长度越大的rollout，贡献度越大。

通过grpo sample-level loss得知，grpo并不在意response的长短（不同长度的sample的贡献度均为相同），然而长度越长A越大，因此response的长度会快速的增加。

但是DAPO认为长度越长的sample的贡献度越大，因此过长的sample是对的会重点强化（提高概率），但是错了的话，会重点惩罚，从而减小错的长response的概率，即

(

)

下降。

image-20251018161556211

同时，通过实验发现，DAPO的response的平均长度并没有无脑、快速增长。

Hide and Seek: Overlong Reward Shaping

考虑到过长的response会被截断无法得到结果，这会导致奖励极低，

因此采用mask的方式，在训练的时候过滤掉过长response的损失。

image-20251018171402542

实验发现，添加overlong filter之后，训练更加稳定（entropy，acc上），避免了noise。

DAPO进一步提出了soft overlong punishment，其实是基于长度的奖励，就不用进行filter操作了，直接赋予低的R就可以了，有利于降低response的长度。添加了一个cache的缓冲区，从而soft。

(

)

⎧

⎪

⎨

⎪

⎩

≤

−

(

−

)

−

≤

−

代码解析待更新（verl实现dapo部分）

查看全文

http://www.cnnetsun.cn/news/15611.html

故障注入测试：构建高韧性系统的工程实践

WinSetView终极指南：如何快速统一Windows文件夹视图设置

ImageGPT技术解析：像素序列预测如何重构视觉AI底层架构

Beyond Compare 5 密钥生成完整指南：从原理到实战应用

手艺人札记：在开源系统中重塑技术的温度

5种方法彻底解决番茄小说离线下载难题

史诗级漏洞警报：ASP.NET Core 被曝 CVSS 9.9 分漏洞，几乎所有.NET 版本无一幸免！

Cider音乐播放器终极指南：跨平台Apple Music体验全解析

力扣刷题：最大子数组和

⭐力扣刷题：岛屿数量

Screenbox媒体播放器：深度解析Windows平台的现代播放解决方案

5步重构OpenSTM扫描隧道显微镜项目架构

DXVK终极配置手册：Linux游戏性能优化的完整解决方案

活字格低代码平台：企业数字化转型的技术架构与实践剖析

NVIDIA CUDA 13.1权威指南：CUDA Tile驱动下一代GPU编程，性能全面提升

Figma中文界面完整指南：快速实现设计工具本地化

重新定义AI视觉评估：多维度评分系统深度解析

Hap视频编解码器：专业级QuickTime硬件加速终极指南

阿里Wan2.1开源：消费级GPU如何重塑视频创作生态

40亿参数改写边缘AI规则：Qwen3-VL-4B-Thinking-FP8轻量化多模态革命

MATLAB图像导出专业指南：掌握export_fig的核心技术

AI浪潮下的新职业生态：技术角色的系统性演化

SQL优化实战：标量子查询改写外连接的真实案例

Claude Code 杀疯了！首创“后台实习生”模式，这才是真正的 AI 结对编程！

多进程环境中解决 PHP 文件系统锁定问题指南

浅谈InheritableThreadLocal---线程可继承的小书包

Jellyfin Android TV客户端音频播放异常问题深度解析

HFI高频方波注入方案stm32f405 无感FOC控制直接闭环启动永磁同步电机无感控制...

CTR预测系统构建实战：从FM到DeepFM的推荐算法演进之路

从零玩转RT-Thread(22):定时器底层机制揭秘

相关文章：