当前位置：首页 > news >正文

五一前夕DeepSeek发布多模态模型：解决指代鸿沟，拓扑推理大幅超越GPT-5.4等模型

news 2026/7/1 12:07:19

虽迟但到，新技术公开

五一长假将至，DeepSeek公开新技术。昨天，DeepSeek陈小康一个X消息，引发大家对DeepSeek多模态的关注。之后，部分用户可在DeepSeek网页端和App上体验其多模态能力。刚刚，DeepSeek在Github上正式发布多模态模型，并公布背后的技术报告。

直击多模态大模型软肋

论文「Thinking with Visual Primitives（以视觉原语思考）」指出，当前多模态大模型存在「指代鸿沟」问题，即模型能「看见」，但不一定能「想清楚」。给GPT - 5.4一张密集人群照片问人数，或给Claude Sonnet 4.6一张复杂电路图问元件位置，它们的回答往往不准确。

背景：「看清」和「想清」是两码事

现有多模态大模型用自然语言构建「思维链」，但自然语言模糊，导致模型注意力在推理中「漂移」，得出错误结论。学术界此前主要解决「感知鸿沟」，而DeepSeek论文认为感知能力强也代替不了精确的「指代能力」。

架构：站在V4 - Flash肩膀上

这项工作以DeepSeek刚发布的V4 - Flash为语言主干，是一个284B总参数、推理时激活13B参数的混合专家模型（MoE）。视觉编码部分使用DeepSeek自研的ViT，支持任意分辨率输入。团队核心贡献是提出一套「训练哲学」，用极少视觉token让模型精确指代视觉对象。

核心创新

把坐标变成「思维单元」：将点坐标和边界框变成推理基本单位，穿插在思维链里。模型推理中提到视觉对象时同步输出坐标，像人类数东西用手指点，让逻辑链稳定。该机制有边界框和点坐标两种「原语」。

7056倍的视觉压缩：对于一张756×756的图片，传统方案需大量视觉token，DeepSeek经ViT处理、3×3空间压缩和「压缩稀疏注意力」机制，整体压缩比达7056倍。一张800×800的图片，该模型只需约90个KV缓存条目，而Claude Sonnet 4.6约需870个，Gemini - 3 - Flash约需1100个。

冷启动数据的精心设计：团队爬取近10万个目标检测数据集，经两轮筛选保留约3.17万个高质量数据源，生成超4000万条训练样本。设计了计数、空间推理和视觉问答、迷宫导航、路径追踪四类任务。

训练流程：「先分家，再合体」

第一步，用边界框数据和点坐标数据分别训练两个专家模型（FTwG和FTwP）；第二步，对两个专家模型各自进行强化学习（RL），使用GRPO算法，奖励设计精细；第三步，用两个专家模型的rollout数据进行统一的强化微调（Unified RFT），再从预训练模型重新初始化开始训练，得到统一模型F；第四步，用On - Policy Distillation弥合统一模型与专家模型之间的性能差距。

实验结果：在「最难的那类题」上超越GPT - 5.4

论文在11个基准测试上评测，与Gemini - 3 - Flash、GPT - 5.4、Claude Sonnet 4.6、Gemma4 - 31B、Qwen3 - VL - 235B等主流模型对比。在计数任务、细粒度计数、空间推理多个基准上表现优秀，拓扑推理任务上领先明显，如迷宫导航和路径追踪任务中大幅超越GPT - 5.4等模型。