当前位置：首页 > news >正文

港中文美团提出OneThinker：视觉推理通才模型！图像视频10类任务一网打尽

news 2026/7/3 21:28:46

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

OneThinker团队投稿
转载自：量子位（QbitAI）

横扫31个主流基准、拿捏10类核心任务，视觉模型界的“通才”来了！

香港中文大学MMLab与美团研究团队开源提出OneThinker——一个基于RL的统一多模态视觉推理通才模型，覆盖图像与视频两种模态下的十类核心视觉任务。

在31项主流视觉任务测试中，OneThinker均表现亮眼。它不仅能在多任务训练中实现相互促进，还能在从未见过的任务上做出合理推理，初步展现了通才模型的泛化能力。

虽然以Vision-R1、Video-R1、VLM-R1等为代表的工作，已经在图像问答、视频理解、目标检测等任务上取得显著效果。

但这类RL模型大部分存在一个限制：只能处理单一模态或单一任务。模态、任务之间缺乏关联，推理能力被割裂，难以泛化应用。

来看看OneThinker是如何做的。

从“专才模型”到“通才系统”

现实世界中的视觉数据复杂多样，往往同时包含静态图像与动态视频信息。同时，视觉任务类型也高度多样化，例如问答、定位、分割、追踪等。

在这种背景下，传统的“单任务、单模态”RL思考模型架构存在以下两个根本性问题：

无法统一建模现实复杂场景
真实应用中往往需要同时理解图像与视频内容，并完成多类任务协同，专才模型难以满足。
知识隔离，迁移受限
模型之间彼此独立，缺乏知识共享机制，限制了推理能力在任务之间的泛化与迁移。

为了解决这一问题，研究团队提出了一个“通才思考模型”OneThinker，具备统一理解和推理不同模态、任务的能力。

为了让OneThinker真正具备统一推理不同模态和任务的能力，研究团队从两方面入手：一是构建统一的数据体系，二是优化多任务的训练方法。

多模态统一任务数据构建

构建具备通用视觉推理能力的模型，首先需要解决数据覆盖不足、任务割裂的问题。

为此，研究团队精心搭建了一套数据集，分别用于模型的SFT冷启动与强化学习训练：

OneThinker-600k
覆盖图像与视频两种模态，涵盖图像问答、视频问答、时空定位、分割、跟踪等十类核心视觉任务，用于强化学习阶段的主力训练数据。
OneThinker-SFT-340k
基于Seed1.5-VL对OneThinker-600k生成高质量的思维链样本并过滤，用于SFT阶段冷启动

通过图像与视频任务的联合训练，OneThinker能够在空间与时间维度上建立统一的推理能力，从而实现跨模态、多任务的通用理解。

EMA-GRPO：提升多任务RL训练稳定性

传统强化学习方法在多任务、多模态场景中存在显著训练不平衡问题。

不同任务之间的奖励结构差异较大（如检测任务的奖励稠密，而问答类任务往往稀疏），容易导致样本间或任务间训练不平衡的问题。

为此，OneThinker引入了全新的EMA-GRPO（Exponential Moving Average Group Relative Policy Optimization）强化训练算法，通过对各任务奖励标准差进行滑动平均归一，解决了两个层面的不平衡问题：

任务内样本权重不均：缓解模型对低方差样本的过度依赖；
任务间梯度贡献失衡：防止稀疏任务在反向传播中占据主导，抑制其他任务学习。

实验结果表明，EMA-GRPO能显著提升强化学习阶段的训练稳定性与收敛速度，为大规模统一推理模型的多任务训练提供了有效支撑。

实验结果

为了全面评估OneThinker的能力，研究团队在图像与视频两个模态下不同任务的31个主流 benchmark上进行了系统测试，覆盖图像问答、视频理解、空间定位、时间定位、目标分割、目标追踪等10类核心视觉任务。

OneThinker在图像问答任务中表现出色，MMMU达到70.6%，MathVerse达到64.3%，在视频理解上，VideoMMM取得了66.2%的表现。

对于时间定位和空间定位任务中，模型在RefCOCO testA的空间定位任务中也取得了93.7%的高分，Charades和ActivityNet的R@0.5分别达到68.3和43.6。

同时，OneThinker在追踪任务GOT-10k上AO达到73.0, 在视频分割任务ReasonVOS上J&F得分为54.9，体现了其在感知类任务中的稳健表现，更多的任务表现请参考原文。

研究团队还发现，在某些任务和模态之间，OneThinker能实现有效的知识迁移与共享，不同任务之间相互促进。

同时，OneThinker在未见任务上展现出零样本能力，能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务，体现出强大的任务泛化能力。

可以说，OneThinker的推出，不仅展示了强化学习在统一多模态、多任务视觉推理上的潜力，也为构建真正的视觉通才模型提供了清晰的路径。

在大模型不断走向多模态、强推理、通才化的趋势下，OneThinker的工作或许只是一个起点，但它所验证的方向，正在成为通往通用视觉智能（AGI）的关键一环。

更多细节，请参考原文。

论文地址：https://arxiv.org/pdf/2512.03043
代码地址：https://github.com/tulerfeng/OneThinker

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

查看全文

http://www.cnnetsun.cn/news/80764.html

信息流广告是什么？信息流广告具有哪些特点呢？

华为祭出百万级奖励，这些鸿蒙应用路子对了

Qwen命令行工具完全指南：从入门到高效使用技巧

照片太多怎么办？Immich智能照片管理终极指南：轻松搞定自动回忆生成

5分钟快速获取同济大学第七版线性代数教材 [特殊字符]

1、24 小时学会 GIMP：安装与使用指南

3、掌握GIMP基础工具，开启创意图形之旅

如何快速扩展gofakeit：开发者的完整实践指南

ICCV 2025 | 强噪声去模糊天花板！残差引导策略 (RGS) 革新核估计，四大数据集上的全面领先

MLX转换终极指南：在Apple芯片上实现一键部署的完整教程

实战指南：用Docker快速搭建专业级语音合成服务

15个Obsidian效率提升的完整方案：让你的知识管理达到新高度

一键部署：ZLMediaKit Windows服务化实战指南

Qwen-Image-Edit-Rapid-AIO V10终极指南：零基础快速上手指南

从零开始掌握文本转SVG序列图的终极方案

21、畅享数字视听：Linux系统的多媒体及外设应用指南

spotDL音频格式终极指南：6种格式深度解析与最佳选择

阅宝黄金获授《黄金以旧换新经营服务规范》团体标准起草单位，以专业之力助推行业规范化发展

制造业老师傅的工艺经验，可通过国产CAD软件系统化传承

PGModeler：让PostgreSQL数据库建模变得像搭积木一样简单

游戏资源安全防护完整指南：从风险评估到系统化实施

Tsuru租户隔离架构深度解析：构建企业级安全PaaS平台

C++结构体完全指南：从基础到高级应用

9、Samba配置全解析：从基础到实战

技术为生命重启而来：脑虎科技发布“三全”脑机接口临床成功，以更优安全性与AI融合定义新未来

GoFakeIt扩展开发实战指南：打造专属测试数据工厂

OhMyZsh终端主题终极指南：从入门到精通的全方位配置方案

当用户问‘哪品牌最好’时，你的名字为何未出现在AI回答中？长缨引擎解答迟迟没有出现在答案里更别说被优先推荐了是它们不够好吗显然不一定那原因出在哪这背后其实涉及一个正在快速成型的新规则——生成式

从零开始学空间转录组分析，手把手教你用R完成差异表达全流程

揭秘R Shiny结果导出黑科技：如何一键实现PDF、Excel、PPT多格式同步生成

OneThinker团队 投稿转载自：量子位（QbitAI）

从“专才模型”到“通才系统”

多模态统一任务数据构建

EMA-GRPO：提升多任务RL训练稳定性

实验结果

相关文章：

OneThinker团队投稿
转载自：量子位（QbitAI）