当前位置: 首页 > news >正文

蚂蚁:高效多模态搜索智能体框架

📖标题:SimpleSearch-VL: A Simple Recipe for Multimodal Agentic Deep Search
🌐来源:arXiv, 2606.31504v1

🛎️文章简介
🔸研究问题:如何解决现有多模态搜索智能体在训练效率、证据可靠性及系统实用性方面面临的瓶颈?
🔸主要贡献:论文提出SimpleSearch-VL框架,通过自适应采样、证据验证及自摘要机制,以极少数据实现媲美顶级闭源模型的性能。

📝重点思路
🔸提出因子化自适应Rollout(FAR)策略,将采样预算分解为提示扩展与Rollout分配两个维度,根据奖励信号动态调整,跳过冗余尾部样本并聚焦困难样本,显著提升RL训练效率。
🔸引入证据验证推理机制,在反向图搜返回结果中包含缩略图,强制模型在使用标题或URL前先进行视觉一致性校验,确保检索到的多模态证据真实可靠。
🔸采用目标导向的网页自摘要机制,由智能体自身根据查询目标提取网页关键信息,替代外部摘要模型,降低系统依赖并保持工具接口轻量化。
🔸构建高质量证据感知训练数据,利用大模型生成并审计工具交错轨迹,重写推理过程以显式包含验证步骤,仅用5K SFT和2K RL数据即可完成高效微调。

🔎分析总结
🔸SimpleSearch-VL-8B和30B-A3B变体在六个基准上平均得分分别提升15.8和16.0分,30B版本性能与Gemini-3-Pro相当,且8B版本超越多数开源30B模型。
🔸FAR策略在保持训练时间接近标准设置的同时,使平均分提升6.2分,有效缓解了长尾延迟问题并提高了困难样本的利用率。
🔸移除视觉缩略图验证导致性能平均下降约3分,证明显式视觉校验是多模态搜索可靠性的关键,而非仅仅是辅助元数据。
🔸自摘要机制比外部摘要器准确率更高且推理速度快28.5%,表明将网页理解内化于智能体中能更好适应特定搜索策略需求。
🔸相比OpenSearch-VL,本方法仅用七分之一的SFT数据和四分之一的RL数据即取得更优性能,证明优化采样与验证流程比单纯扩大数据规模更有效。

💡个人观点
论文通过FAR解决RL训练中的算力浪费痛点,利用缩略图验证填补了多模态检索的信任缺口,并以自摘要消除了外部模型依赖。

http://www.cnnetsun.cn/news/3132290.html

相关文章:

  • 数字孪生助力制造业全链路仿真优化的路径
  • Offix数据模型设计最佳实践:从schema到生成代码的完整流程
  • 如何在10分钟内训练专业级AI语音转换模型:RVC完整指南
  • 如何彻底解决PowerShell 7.5在Windows平台的启动崩溃:5步完整指南
  • DeepSeek-V4:国产大模型从‘能用’到‘好用’的可用性革命
  • PyMiniRacer核心功能解析:最新ECMAScript支持与WebAssembly实战指南
  • ContEx扩展开发:从零开始创建自定义图表类型和插件的完整指南
  • Video2X:5分钟上手AI视频超分辨率与帧插值完整指南
  • AI网课摘要工具实测:语义压缩率与复习触发智能度深度解析
  • 5分钟快速配置NeverSink过滤器:流放之路2物品筛选终极指南
  • 如何快速掌握VRRTest:终极可变刷新率检测工具完整指南
  • BIThesis 3.7.0:响应北京理工大学研究生学位论文规范修订的技术适配
  • 服务器高速互连中的信号完整性分析与设计实践
  • GPT-5不存在?厘清大模型代际演进事实与GPT-4o实战价值
  • 告别分库分表痛苦_阿里云PolarDB-X透明分布式让应用零改造
  • Video2X终极指南:如何使用AI技术免费提升视频分辨率和帧率
  • Instatic与S3兼容存储:MinIO配置与媒体管理完全指南
  • SQL筛选数据的10个高效方法:SQL Ultimate Course进阶指南
  • CANN/ge LLM集群连接API
  • 为什么选择ampy?探索MicroPython串口工具的5大优势
  • 计算机毕业设计之springboot医院信息管理系统
  • 终极AgentScope嵌入模型实战指南:3步构建高效语义检索系统
  • Livox-SDK2激光雷达开发完整教程:从安装到实战应用
  • 终极bCNC指南:如何用这款开源GRBL工具彻底改变你的CNC加工流程
  • FOC矢量控制在电动出行设备中的应用与优化
  • 数字手写的革命:Saber如何重新定义跨平台笔记体验
  • Path of Building PoE2:流放之路2最强离线构建规划工具终极指南
  • Yuzu模拟器版本选择终极指南:3步找到最适合你的完美版本
  • 2026年AI模型实操红黑榜:六模型生存指南
  • 为什么Fooocus是AI图像生成的革命性工具:简化复杂,专注创作