当前位置：首页 > news >正文

美团CVPR 2026中稿精选：视觉生成遇上慢思考，解码多模态推理新范式

news 2026/6/4 1:58:39

点亮👆“☆”星标，不错过推送内容~

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition）是计算机视觉和模式识别领域中顶级的国际学术会议。多年来，CVPR 成功汇聚了上述领域的一流研究人员和开发人员，为交流有关计算机视觉、人工智能和机器学习研究的最新发展提供了一个国际论坛。

2026 年，美团技术团队共有十多篇论文被 CVPR 收录，本文精选了其中的 10 篇论文（Main Conference）进行分享，技术方向覆盖跨粒度关联、实时交互、数字人、可控图像定制、平面设计等领域，希望能够对从事相关研究的同学以帮助或启发。

🎯 活动预告：

5 月 21 日（周四）下午，我们将分享 CVPR 6 篇论文（Main Conference）相关知识点和技术思考，扫码预约开播提醒，文末附更多详细信息。

报名预约开播提醒 👇

https://hdxu.cn/1HZCj

01

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

U-Mind：面向实时多模态交互与视听生成的统一框架

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/abs/2602.23739

论文简介：针对生成式 AI 实时交互中逻辑混乱和音画不同步的挑战，论文推出了全栈多模态对话系统 U-Mind。该系统在统一交互环路中支持语言、语音、动作和视频生成，核心采用“统一对齐与推理框架”，通过分段对齐策略和“排演驱动学习”机制，确保多模态输出的严丝合缝并保持逻辑推理能力。实验表明，U-Mind 在多模态问答及指令遵循等任务上均达到当前顶尖水平（SOTA）。

Active Intelligence in Video Avatars via Closed-loop World Modeling

主动智能视频化身：基于闭环世界建模

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/abs/2512.20615

论文简介：论文探讨了视频数字人从“被动执行”向“主动感知与决策”的转变，提出了 L-IVA 任务基准及 ORCA（主动推理与闭环行动）框架。ORCA 通过“观察-思考-行动-反思（OTAR）”闭环机制，赋予数字人自主规划、记忆维护和主动提问能力。配合发布的 L-IVA 评测集，实验证明 ORCA 在长时序、多步任务场景中显著优于现有方法，为构建主动智能视频助手提供了新思路。

PositionIC: Unified Position and Identity Consistency for Image Customization

PositionIC：面向图像定制化的统一位置与身份一致性

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/abs/2507.13861

论文简介：PositionIC 是一个面向多主体可控图像定制的框架，旨在解决主体精确摆放与自然交互问题。研究构建了自动化管线 BMPDS 以生成高质量空间标注数据，并引入可见性感知注意力机制，通过体渲染启发的权重调制实现空间与身份特征的有效解耦。该方案轻量高效，在保持身份一致性、空间精度与视觉自然度方面显著优于现有方法，适用于电商展示及内容创作等真实应用场景。

PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

PosterOmni：基于任务蒸馏与统一奖励反馈的通用艺术海报生成

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/pdf/2602.12127

论文简介：本论文提出了通用艺术海报生成框架 PosterOmni，通过“数据—蒸馏—奖励”流水线整合了局部编辑与全局创作。该方法构建了涵盖六种任务的多场景数据集，从专业模型中提炼知识，并利用“统一奖励反馈”机制确保生成结果符合人类审美偏好。实验显示，PosterOmni 在图像保真度和设计质量上显著优于现有基准，相关代码已开源至 MeiGen-AI 仓库。

PosterReward: Unlocking Accurate Evaluation for High-Quality Graphic Design Generation

PosterReward：面向高质量平面设计生成的精准评估解锁

论文类型：CVPR Main Conference

论文下载：https://alexlai2860.github.io/mypaper/posterreward/PosterReward_Arxiv_official.pdf

论文简介：针对现有奖励模型难以捕捉字体、布局等精细平面设计元素的问题，论文构建了利用多模态大模型自动生成偏好对的流程，并提出多阶段奖励模型 PosterReward。该模型有效解决了高质量平面设计偏好数据匮乏的难题，能够对图形设计进行精准评估。实验表明，PosterReward 在电商及影视海报的打分与分析性能上显著优于现有模型。

UniComp: Rethinking Video Compression Through Informational Uniqueness

UniComp：基于信息唯一性的视频压缩新思考

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/pdf/2512.03575

论文简介：UniComp，从信息论角度重构视频压缩。研究将压缩形式化为最小化条件熵H（X|S）问题，建立信息独特性与重建误差的理论关联，证明最大化保留Token独特性等价于最小化信息损失。框架包含三个模块，仅需两个超参数，无需修改模型结构，跨架构通用。实验表明 5%极端压缩下仍能保留关键语义细节。

OneThinker: All-in-one Reasoning Model for Image and Video

OneThinker：图像与视频全能推理模型

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/pdf/2512.03043

论文简介：针对现有视觉强化学习模型受限于单一模态或任务的“专才”局限，本论文提出了统一的多模态视觉推理通才模型 OneThinker。研究团队不仅构建了覆盖图文与视频、包含十类核心视觉任务的统一数据集 OneThinker-600k，还创新性地提出了 EMA-GRPO 算法，有效解决了多任务强化学习训练中的奖励不平衡问题。实验表明，该模型横扫了 31 个主流基准测试，展现出极强的零样本泛化能力，目前相关代码与数据已全部开源。

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views (3DThinker)

Think with 3D：基于有限视角的几何想象力驱动空间推理（3DThinker）

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/pdf/2510.18632

论文简介：为弥补当前多模态大模型大多停留在 2D 推理、缺乏三维几何结构表达的缺陷，论文提出了首个内蕴三维空间意象的“Think with 3D”推理范式 3DThinker。该方法无需 3D 标注数据，通过“监督蒸馏”与“强化训练”二段式潜空间对齐机制，将 3D 基础模型特征注入推理链，让模型在生成文本时学会“脑补”几何特征。实验证明，该方法大幅刷新了空间推理性能的 SOTA，且具备能够直接从生成的 3D 潜变量中恢复出三维点云的极强可解释性。

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

Thinking-while-Generating：在视觉生成全过程中交织文本推理

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/abs/2511.16671

论文简介：针对文生图模型在复杂空间控制上的偏差以及传统修改策略缺乏灵活性或开销巨大的局限，论文首创了在单一轨迹中深度交织文本推理与视觉生成的 TwiG 框架。该方法将生成过程拆解为“生成-思考-再生成”的循环，让模型像人类画师一样在作画时，通过规划思维时间表、生成思维链和触发自我批判局部重画来进行动态修正。实验表明，TwiG 显著减少了生成幻觉，其强化学习版本在关键指标上已能匹敌 FLUX.1 等顶尖模型，相关代码及项目已全部开源。

UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models

UFVideo：面向统一细粒度视频协作理解的大语言模型

论文类型：CVPR Main Conference

论文下载：https://arxiv.org/abs/2512.11336

论文简介：针对视频大语言模型在跨粒度关联上的局限，论文提出了统一框架 UFVideo。该框架通过视觉-语言引导对齐机制，融合大语言模型的生成能力与 SAM2 掩码解码器，实现了全局问答、像素级分割及时间定位等多粒度任务的协同处理。此外，研究构建了包含三个全新协同任务的综合基准测试 UFVideo-Bench。实验证明，UFVideo 在常规视频理解、目标指代等 9 个基准测试中均达到领先水平。

活动预告

识别海报二维码或访问下方链接报名

https://hdxu.cn/1HZCj

查看全文

http://www.cnnetsun.cn/news/2462233.html