当前位置: 首页 > news >正文

五一前夕DeepSeek发布多模态模型:解决指代鸿沟,拓扑推理大幅超越GPT-5.4等模型

虽迟但到,新技术公开

五一长假将至,DeepSeek公开新技术。昨天,DeepSeek陈小康一个X消息,引发大家对DeepSeek多模态的关注。之后,部分用户可在DeepSeek网页端和App上体验其多模态能力。刚刚,DeepSeek在Github上正式发布多模态模型,并公布背后的技术报告。

直击多模态大模型软肋

论文「Thinking with Visual Primitives(以视觉原语思考)」指出,当前多模态大模型存在「指代鸿沟」问题,即模型能「看见」,但不一定能「想清楚」。给GPT - 5.4一张密集人群照片问人数,或给Claude Sonnet 4.6一张复杂电路图问元件位置,它们的回答往往不准确。

背景:「看清」和「想清」是两码事

现有多模态大模型用自然语言构建「思维链」,但自然语言模糊,导致模型注意力在推理中「漂移」,得出错误结论。学术界此前主要解决「感知鸿沟」,而DeepSeek论文认为感知能力强也代替不了精确的「指代能力」。

架构:站在V4 - Flash肩膀上

这项工作以DeepSeek刚发布的V4 - Flash为语言主干,是一个284B总参数、推理时激活13B参数的混合专家模型(MoE)。视觉编码部分使用DeepSeek自研的ViT,支持任意分辨率输入。团队核心贡献是提出一套「训练哲学」,用极少视觉token让模型精确指代视觉对象。

核心创新

把坐标变成「思维单元」:将点坐标和边界框变成推理基本单位,穿插在思维链里。模型推理中提到视觉对象时同步输出坐标,像人类数东西用手指点,让逻辑链稳定。该机制有边界框和点坐标两种「原语」。

7056倍的视觉压缩:对于一张756×756的图片,传统方案需大量视觉token,DeepSeek经ViT处理、3×3空间压缩和「压缩稀疏注意力」机制,整体压缩比达7056倍。一张800×800的图片,该模型只需约90个KV缓存条目,而Claude Sonnet 4.6约需870个,Gemini - 3 - Flash约需1100个。

冷启动数据的精心设计:团队爬取近10万个目标检测数据集,经两轮筛选保留约3.17万个高质量数据源,生成超4000万条训练样本。设计了计数、空间推理和视觉问答、迷宫导航、路径追踪四类任务。

训练流程:「先分家,再合体」

第一步,用边界框数据和点坐标数据分别训练两个专家模型(FTwG和FTwP);第二步,对两个专家模型各自进行强化学习(RL),使用GRPO算法,奖励设计精细;第三步,用两个专家模型的rollout数据进行统一的强化微调(Unified RFT),再从预训练模型重新初始化开始训练,得到统一模型F;第四步,用On - Policy Distillation弥合统一模型与专家模型之间的性能差距。

实验结果:在「最难的那类题」上超越GPT - 5.4

论文在11个基准测试上评测,与Gemini - 3 - Flash、GPT - 5.4、Claude Sonnet 4.6、Gemma4 - 31B、Qwen3 - VL - 235B等主流模型对比。在计数任务、细粒度计数、空间推理多个基准上表现优秀,拓扑推理任务上领先明显,如迷宫导航和路径追踪任务中大幅超越GPT - 5.4等模型。

局限与未来

当前模型需明确「触发词」才启用视觉原语机制,受输入分辨率限制,视觉原语位置偶尔不够精准,用点坐标解决复杂拓扑推理问题的跨场景泛化能力有限。团队认为与现有高分辨率感知方案结合是下一步方向。

结语:一种新的「思考姿势」

这篇论文意义不仅在于榜单排名,它指出推理中语言指代歧义是多模态模型瓶颈,给出让模型「指更准」的新思路,像人类用手指点着想,为多模态推理增添新「思考姿势」。

http://www.cnnetsun.cn/news/2192182.html

相关文章:

  • Claude Code 工具 详解
  • 利用 Taotoken 为团队知识库构建智能问答机器人应用场景
  • 从数学建模到工程实践:用MATLAB复现多波束测线优化(附贪心算法与模拟退火代码)
  • 别再混淆MIPI-DSI的命令包了!0x29和0x39到底怎么选?附SPRD/Rockchip实例解析
  • 跨平台项目中QString 与 非Qt 跨平台动态库在字符集上的一个实用的互操作约定.
  • 喜马拉雅VIP音频下载终极指南:3步实现付费内容本地化
  • 对比直连与通过 Taotoken 调用在容灾体验上的不同
  • 终极免费d2s-editor:暗黑破坏神2存档修改完全指南
  • 【LLM推理优化与部署工程⑧】模型部署了,但没人知道它在干什么——出事了你都不知道
  • 终极魔兽争霸3优化指南:告别卡顿,畅享144Hz流畅体验
  • 中兴光猫解锁终极指南:5分钟获取完整root权限的完整教程
  • 八大网盘直链解析技术深度解析:架构设计与性能优化指南
  • PySpice终极指南:如何用Python轻松完成专业级电路仿真
  • 第24集:跨云多活架构!AIOps 平台的容灾与故障切换实战
  • QRCode 核心知识汇总
  • 告别盲配!用S32DS可视化工具高效搞定S32K3 MCAL时钟配置(以S32K312为例)
  • 八大网盘直链下载神器:告别限速烦恼的终极指南
  • VLingNav:视觉-语言-动作模型在智能导航中的应用与优化
  • 开源AI智能体编排平台Mission Control:从部署到生产级运维指南
  • RimSort:从模组下载失败到流畅管理的完整解决方案
  • 终极指南:三步轻松清理Windows驱动垃圾,释放数十GB空间
  • FanControl终极指南:免费开源Windows风扇控制软件,5分钟打造静音高效电脑
  • 从洗衣机到汽车:聊聊LIN总线这个‘经济适用型’协议在家电和车联网里的妙用
  • AKShare与Pandas完整整合指南:三步构建高效金融数据分析流程
  • 没人敢说的实话!《灵魂摆渡・浮生梦》怕了孤身闯局的海棠山铁哥和《第一大道》
  • 长期项目使用Taotoken在账单追溯与用量分析上的便利
  • 蓝桥杯单片机省赛拿分秘籍:第十一届这道‘电压阈值计数’题,我是这么啃下来的
  • 别再死记公式了!折叠共源共栅放大器设计中的5个关键权衡与选型思路
  • 分享一个微软开源的Python库用来扫盲转换 markdown格式 知识库
  • google搜索 cookie算法分析