当前位置：首页 > news >正文

OneReward：基于多任务人类偏好学习的统一掩码引导图像生成

news 2026/6/17 5:47:59

文章目录

一、前言
二、OneReward
- 核心问题
- 核心创新：OneReward 框架
- 数据收集
- 实验结果
- 开源贡献
- 与现有方法的对比
- 一句话总结
三、论文
- 摘要
- 1 引言
- 2 相关工作

一、前言

仅供参考，未经实验验证。

二、OneReward

论文标题：OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
作者：Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
机构：字节跳动
论文地址： https://arxiv.org/pdf/2508.21066
Github地址：https://github.com/bytedance/OneReward
发表时间：2025年8月28日

核心问题

掩码引导图像生成包含多个子任务（图像填充、图像扩展、物体移除、文字渲染），这些任务虽然输入格式相同（都是"原图 + 掩码 + 提示词"），但数据分布和评估标准差异很大。现有方法通常依赖任务特定的监督微调（SFT），导致泛化能力差、训练效率低。

核心创新：OneReward 框架

1. 单一 VLM 作为统一奖励模型

使用一个视觉-语言模型（基于Qwen2.5-VL）作为生成式奖励模型
通过在查询中注入任务类别和评估维度（如美学、结构、一致性等），让同一个模型能够区分不同任务、不同标准下的优劣
奖励信号来自 VLM 生成 “Yes” token 的概率

2. 无需任务特定 SFT 的多任务强化学习

直接从预训练基础模型（Seedream 3.0）通过强化学习优化
将预训练模型作为Reference Model，训练中的模型作为Policy Model
目标：让 Policy Model 在各项任务指标上超越 Reference Model
这是首次将强化学习作为直接优化范式应用于多任务图像编辑

3. 基于 Flow Matching 的 RL 训练

底层基于Rectified Flow（Flow Matching 的一种高效变体）
参考模型完全去噪生成参考图像
策略模型随机选择某一步去噪后直接预测x 0 ′ x'_0x0′，然后与参考图像一起送入奖励模型做对比

数据收集

构建了大规模多任务人类偏好数据集：

图像填充：在掩码区域生成指定内容，强调提示对齐、美学连贯、结构完整
图像扩展：在原图边界外生成内容，强调视觉美学、无缝融合、结构一致
物体移除：根据周围上下文填充掩码区域，避免生成额外物体，保证纹理一致
文字渲染：精确生成并排版文字元素

通过随机改变推理参数（去噪步数、负提示词、CFG Scale）生成多样化候选图像，人工标注各维度下的 winner/loser 对。

实验结果

基于 OneReward 开发了Seedream 3.0 Fill，在多个维度上全面超越商业和开源竞品：

任务	超越的对手
图像填充	Ideogram、Adobe Photoshop、FLUX Fill [Pro]
图像扩展（有/无提示词）	Ideogram、FLUX Fill [Pro]、Midjourney
物体移除	Adobe Photoshop、Ideogram、FLUX Fill [Pro]
文字渲染	包含在图像填充中评估

评估维度包括：整体可用率、美学、结构、提示对齐、纹理一致性、风格一致性、文本对齐、移除质量等。

开源贡献

代码：https://github.com/bytedance/OneReward（Apache 2.0）
模型：开源了FLUX.1-Fill-dev[OneReward]（CC BY NC 4.0），在图像填充和扩展任务上均超越原版 FLUX Fill [dev]

与现有方法的对比

方法	局限	OneReward 解决方式
DPO	假设偏好是严格全序的，无法处理"美学更好但结构更差"的情况	VLM 按任务+维度分别判断 winner/loser
ReFL	每个评估维度需要单独训练奖励模型；多任务存在奖励冲突	一个 VLM 统一处理所有任务和维度
GRPO/FlowGRPO	基于策略梯度估计优势，不直接最大化奖励信号，收敛慢	直接用 VLM 的 “Yes” 概率作为奖励信号驱动优化

一句话总结

OneReward 用一个 VLM 奖励模型打通了多任务掩码图像编辑的强化学习训练，做出了Seedream 3.0 Fill这个在填充、扩展、移除、文字渲染上全面 SOTA 的统一编辑模型，并开源了基于 FLUX 的社区版本。

三、论文

摘要

本文提出了一种统一的强化学习框架OneReward，该框架仅使用一个奖励模型即可增强模型在不同评估标准下的多任务生成能力。通过采用单一的视觉-语言模型（VLM）作为生成奖励模型，该模型能够区分给定任务和给定评估标准下的胜者和败者，因此可以有效地应用于多任务生成模型，尤其是在数据多样化和任务目标各异的场景中。

我们利用OneReward进行掩码引导的图像生成，该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等子任务，均涉及二值掩码作为编辑区域。尽管这些领域特定的任务共享相同的条件范式，但它们在底层数据分布和评估指标上存在显著差异。

现有方法通常依赖于特定任务的监督微调（SFT），这限制了泛化能力和训练效率。基于OneReward，我们开发了Seedream 3.0 Fill，一个通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型，无需特定任务的SFT。实验结果表明，我们的统一编辑模型在多个评估维度上始终优于商业和开源竞争对手，如Ideogram、Adobe Photoshop和FLUX Fill [Pro]。

1 引言

扩散模型（Rombach et al. (2022); Podell et al. (2023); Labs (2024))的最新进展已实现多样化的挑战性任务，例如图像修复、图像外绘、物体移除和文本渲染。尽管这些任务共享通用的掩码引导输入格式，但它们在条件分布和评估指标上表现出显著差异，这对开发统一、通用的模型构成了相当大的挑战。

图像修复（Inpainting），亦称图像填充（image fill），旨在对局部遮罩区域内的特定对象进行修改或添加，并着重于提示词的准确对齐、美学连贯性及结构完整性。图像外绘（Outpainting），亦称图像扩展（image-extend），要求在现有图像的外部生成大量内容，以超越其原始边界，并高度重视视觉美学、无缝集成及结构一致性。

对象移除是指根据周围的上下文填充被遮罩的区域，需要避免生成额外的对象，并确保与原始图像的纹理一致性。文本渲染特别针对文本元素的精确渲染，强调根据给定指令生成和对齐字体的准确性。

当前最先进的生成模型通常在特定的编辑任务中表现出色，但在同时保持跨多个任务的一致性高性能方面存在困难。现有方法或社区模型通常依赖于特定任务的监督微调（SFT），或基于SD1.5- Inpaint（Rombach等人 NT1）和FLUX Fill（Labs NT2）的有限数据上的LoRA（Hu等人 NT0），这限制了它们在多样化编辑场景下的泛化能力。这揭示了设计一个能够支持多种图像编辑任务同时避免特定任务微调的低效率的统一框架的难度。

图1：跨四个图像编辑任务的总体评估，其中文本渲染包含在图像填充中。对于每个子任务，我们仅选择最先进的模型或闭源API作为竞争者，并在多个维度进行了详细评估。请注意，不同的任务具有不同的评估标准。

诸如直接偏好优化（DPO）（Rafailov 等人 (2023); Wallace 等人 (2024); Xu 等人 (2024); Liu 等人 (2025b)), 基于奖励的方法（Xu 等人 (2023); Zhang 等人 (2024); Li 等人 (2024); Gao 等人 (2025b)) 和基于强化学习的方法（Black 等人 (2023); Liu 等人 (2025a); Xue 等人 (2025)) 等扩散模型和流匹配模型的人类反馈强化学习（RLHF）方法，在跨文本到图像和文本到视频领域将生成输出与人类偏好对齐方面显示出巨大潜力。

然而，DPO在同时处理多样化任务和评估维度方面存在根本性局限，因为它本质上假定了一个明确的偏好顺序，而在异构任务和标准下这种顺序可能不成立。例如，当一张图像在美学上更优但结构上不如其对应图像时，DPO无法明确确定优胜者和失败者。

奖励反馈学习（ReFL）虽然在特定维度上显著提升了模型性能，但在使用 BLIP(Li et al. (2022)) 和 CLIP(Radford et al. (2021)), 等传统多模态架构时，通常需要为每个评估标准训练单独的奖励模型，从而增加了训练和调优的复杂性。此外，ReFL 在多任务场景中会遇到奖励冲突，其中高质量的对象生成在图像填充和对象移除任务中可能会收到完全相反的评估。

FlowGRPO(Liu et al. (2025a)) 和 DanceGRPO(Xue et al. (2025)) 将强大的大型语言模型(LLM)的GRPO(Shao et al. (2024)),引入流匹配模型，通过将确定性常微分方程(ODE)采样转换为随机微分方程(SDE)框架。虽然基于GRPO的方法在视觉生成任务上显著提高了性能，但它们依赖于策略估计，通过引入组相对公式来估计优势，而没有在优化过程中明确最大化奖励信号。这通常会导致比奖励驱动的方法更慢的收敛速度。

为了克服这些局限性，我们引入了OneReward，一个统一的强化学习框架，用于多任务图像生成，仅使用一个视觉语言模型（VLM）作为奖励模型。通过将任务类别和评估指标信息（例如美学、结构、一致性）直接纳入其查询中，VLM可以有效地区分任务和评估标准，使其能够在特定设置下做出成对判断并确定哪个输出更好。

基于OneReward，我们采用Seedream 3.0(Gao等 (2025a)) 作为预训练基础模型，并开发了Seedream 3.0 Fill，一个最先进的（SOTA）掩码引导图像生成模型，在包括图像填充、图像扩展、对象移除和文本渲染在内的多样化任务集上始终如一地提供卓越性能。

Seedream 3.0 Fill 通过强化学习直接从预训练模型进行优化，无需任何 SFT。在训练过程中，我们将初始预训练模型视为参考模型，将训练模型视为策略模型，并优化后者以在每个特定任务的评估指标上生成超越参考模型的结果。

奖励信号来源于视觉语言模型（VLM）生成的“Yes”这一token的概率，然后用于梯度反向传播。据我们所知，这是首次在多任务图像编辑的背景下，采用强化学习作为直接优化范式的工作。
The main contributions of our work are threefold:
我们工作的主要贡献有三方面：

我们提出了OneReward，一种新颖的奖励模型框架，通过采用VLM作为生成式奖励模型来增强视觉领域的强化学习，从而显著提高策略模型在各种场景中的生成能力。
在OneReward的基础上，我们开发了Seedream 3.0 Fill，这是一个统一的SOTA图像编辑模型，能够有效地处理各种任务，包括图像填充、图像扩展、对象移除和文本渲染。它超越了几个领先的商业和开源模型，包括Ideogram、Adobe Photoshop和FLUX Fill [Pro]。
通过在FLUX Fill [dev]上应用我们的多任务强化学习方法，我们介绍并开源了FLUX Fill [dev][OneReward]，这是一个广义的图像编辑模型，在图像修复和图像外推任务上均优于原始模型，为未来统一的掩码引导图像生成研究提供了一个强大的新基线。

2 相关工作

掩码引导图像生成：图像修复和图像外绘侧重于为图像的缺失或外部区域生成连贯且无缝的内容。随着深度学习的出现，基于生成对抗网络（GAN）（Goodfellow et al. (2020)) 的方法占据了主导地位。特别是，大掩码修复（LaMa）（Suvorov et al. (2022)) 引入了快速傅里叶卷积，显著提高了处理大而复杂的掩码的能力，同时保持了全局结构一致性，而这是早期基于卷积神经网络（CNN）的方法常见的失败点。

近年来，扩散模型（Ho et al. (2020); Song et al. (2020a); Rombach et al. (2022); Song et al. (2020b)) 因其卓越的生成质量而成为最先进的模型。RePaint (Lugmayr et al. (2022)) 是一种早期方法，它通过重复采样未知区域并将其与已知上下文融合，将预训练的无条件扩散模型应用于图像修复，尽管其迭代性质可能计算量很大。

后续模型，例如 Stable Diffusion 的原生修复变体（Rombach 等人 (2022); Podell 等人 (2023)),，通过将掩码的潜在表示与原始图像的潜在表示连接起来作为其原始文本到图像模型的输入，从而采用了更有效的方法。该范式奠定了坚实的基础

图2：Seedream 3.0 Fill在四个场景下的视觉展示：图像填充、图像扩展、物体移除和文本渲染。每一列展示了一个具有代表性的例子，包含相应的提示和输出，展示了该模型在不同生成目标下的统一能力。

用于高保真、文本引导的编辑。后续工作，例如 MagicBrush (Zhang 等人 (2023)) 和 Inst-Inpaint (Yildirim 等人 (2023)),，引入了更精炼的基于指令的数据集来提高图像编辑的准确性。ByteEdit (Ren 等人 (2024)) 探索了反馈学习在这些任务中提升性能的应用，但不同的子任务应用了独立 SFT 和 RL 过程。

近期，FLUX Fill(Labs (2024)) 已成为一个强大的开源基线，在图像修复和图像外绘制方面均表现出强劲性能。然而，这些模型通常是专门化的，或者在多种不同的编辑模式下缺乏鲁棒的泛化能力。我们的统一编辑模型直接建立在这些基础之上，但通过利用一种新颖的多任务 RLHF 框架来解决它们的局限性，将图像修复、图像外绘制、对象移除和文本渲染统一到一个单一的、熟练的模型中。

RLHF for diffusion model: 使生成模型与人类偏好对齐已成为一个快速发展的研究领域，旨在提高生成视觉内容的审美质量、指令对齐和用户整体期望。RLHF的成功关键在于奖励模型的质量。

ReFL (Xu et al. (2023)) 在朝着通用奖励建模迈出的重要一步，它在一个大规模专家比较数据集上进行了训练。它进一步提出了一种算法，通过将奖励分数视为人类偏好损失，并将其反向传播到去噪过程中的随机选取的后续步骤，来直接微调扩散模型。

后续研究，例如 VisionReward (Xu 等人 (2024)),，通过将人类偏好分解为保真度、组合性、安全性和文本对齐等可解释的维度，探索了更细粒度、多维度的奖励建模。然而，其依赖逻辑回归来加权这些维度会引入额外的复杂性，限制了其在完全端到端训练管道中的适用性，并降低了在更广泛场景下的泛化能力。

将强化学习从人类反馈中学习（RLHF）算法从大型语言模型（LLM）领域适配到扩散模型领域，带来了一系列独特的挑战。直接偏好优化（DPO）（Rafailov 等人 (2023)) 被提出作为完整强化学习（RL）流程的一种更简单且稳定的替代方案。

与依赖显式奖励模型不同，DPO通过直接最大化首选响应和非首选响应之间对数概率比的差异来优化策略模型。该方法被有效地扩展到了视觉领域，引入了Diffusion-DPO（Wallace等人 (2024)),，它将目标重新表述为扩散模型似然，从而实现了直接而稳定的偏好对齐。

Denoising Diffusion Policy Optimization (DDPO) (Su et al. (2024)) 是一项开创性工作，它通过将去噪过程视为一个多步决策问题，成功地将策略梯度方法应用于扩散模型。进一步的算法进展包括 Group Relative Policy Optimization (GRPO) (Shao et al. (2024)),，它在对齐扩散模型和流匹配模型方面表现出强大的性能，其在 FlowGRPO (Liu et al. (2025a)) 和 DanceGRPO (Xue et al. (2025)) 中的应用证明了这一点。

OneReward 将近期在对齐策略方面的进展综合到一个统一的框架中。我们的工作通过仅利用一个视觉语言模型（VLM）作为生成式奖励模型，为我们的多任务强化学习产生任务感知的反馈，从而进一步推动了这一前沿。它解决了传统算法（如 DPO）的一个关键限制，即当偏好在不同的评估维度上变化时，这些算法难以区分胜者和败者。

我们通过OneReward开发了一个SOTA图像编辑模型，该模型在统一的强化学习框架内联合学习多个子任务。

查看全文

http://www.cnnetsun.cn/news/2950361.html