当前位置: 首页 > news >正文

免训练开放词汇分割范式突破!将 SAM 3 零微调适配遥感图像分析领域,17个数据集上刷新SOTA

超高分辨率的遥感图像上的分割结果,原文链接:SAM3+遥感https://mp.weixin.qq.com/s/2Dq2vhtPjdfGcGbgnvlDag

在之前谈到开放词汇分割方案时,必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类,但前者在精确定位方面常常面临挑战,后者则通常依赖于复杂的多阶段流程。

典型的如遥感图像分析领域,上述问题更为突出。如何在包含成千上万密集小型目标(如车辆、小型建筑)与广阔无定形背景(如农田、水域)的复杂场景中,实现精准的像素级识别?

更棘手的是,真实世界的遥感应用需要处理几乎无限的视觉概念,从突发的灾害损毁到新建的城市设施,模型必须能够理解从未见过的物体类别。

具备可提示概念分割的SAM3非常适配开放词汇分割任务,但直接应用预训练的SAM3模型进行特定任务的处理可行吗?在特定领域中应用SAM3到底需不需要微调呢?

今天给大家介绍的来自西交大的一篇工作,基于 SAM 3 的统一架构提供了一个比复杂的 CLIP 集成方法更强大且更简单的基础模型,用于遥感图像分析,且完全无需额外训练!项目代码已开源、论文链接如下。

# Paper SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images # 论文 https://arxiv.org/pdf/2512.08730 # 代码 https://github.com/earth-insights/SegEarth-OV-3

一、传统方法的双难困境

长期以来,遥感开放词汇语义分割领域被两大技术路线所主导,但它们各自存在明显缺陷:

CLIP 派系:基于CLIP的免训练方法(如MaskCLIP、SCLIP)虽然避免了训练成本,但由于CLIP本身是为图像级分类设计,将其直接用于像素级定位时,往往产生粗糙、模糊的边界。

SAM 辅助派系:RemoteSAM 和 InstructSAM 利用基于SAM的流程将分割与更广泛的解耦任务统一起来。然而,这些方法通常依赖于复杂的多阶段流程需要多个独立模型协同工作,或者需要针对遥感场景仍需专门训练。

二、SAM3:统一架构的降维打击

SAM3 的架构特性与遥感场景完美适配,而且能力都是原生内置的,无需额外的训练或复杂的集成。比如密集小目标、无定形背景、类别稀疏性以及开放词汇需求都是遥感分析面临的四大挑战。

SAM3 将分割、识别、存在性判断统一在一个简洁的框架中。其中三项技术与视觉无限概念的遥感图像场景天然适配。

  • 解耦的三头架构:语义头、实例头、存在性头各司其职;

  • 可提示的概念分割:用户可通过文本描述直接指导模型;

  • 内置前景判断:存在性头能自动判断目标是否存在于场景中;

三、SegEarth-OV3:无需训练的遥感分割

遥感图像中存在两种截然不同的区域:需要像素级语义连续性的无定形物体,以及需要实例级边界精确度的可计数事物。

利用 SAM3 的实例头专门处理可计数对象,保证边界精确,利用其语义头处理无定形区域,保持土地覆盖的完整性。

另外在遥感场景中,一个完整的土地覆盖词汇表可能包含上百个类别,但单个图像块通常只包含其中少数几个。这种高类别稀疏性导致大量不必要的计算和误报。

SAM3 的存在性头提供了完美的解决方案:它能够快速判断某个概念是否存在于当前场景中,从而在早期就过滤掉大量无关类别,将计算资源集中在真正相关的识别任务上。

SegEarth-OV3 的有效性在17个遥感数据集和三个通用场景基准上进行了评估,展示了在多类语义分割和单类提取任务中的最先进性能:

  • 零训练成本:完全使用原始 SAM3 权重,无需任何微调;

  • 边界精度提升:相比 CLIP 基线上边界清晰度提升30%以上;

  • 处理效率优化:存在性过滤减少40%不必要的计算;

  • 通用性强:不仅在遥感场景有效,在自然图像分割基准上也表现优异;

SAM3 的解耦架构本身就能胜任遥感开放词汇分割,复杂流程和领域训练可能不再是必选项

文末有其他几篇遥感领域大模型的文章介绍,小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

http://www.cnnetsun.cn/news/68723.html

相关文章:

  • 基于STM32智能营养称系统的设计与实现_352
  • PHP 8.6升级必看:5个关键兼容性检测步骤,避免生产环境崩溃
  • 医疗行业PHP数据备份最佳实践(20年专家亲授方案)
  • 4、Gateway
  • 泛型实例化陷阱频发?资深架构师总结的6大避坑法则
  • hot100 2.字母异位词分组
  • R语言Cox回归避坑指南(临床数据建模常见错误TOP5)
  • 是德 N9041B UXA 频谱分析仪在真空环境完成卫星信号分析
  • 用是德DSOX1204A示波器快速捕捉与调试信号的实用指南
  • 连接器EMC测试不过关?5步定位干扰源头,快速通过认证
  • 为什么90%的物联网项目卡在部署阶段?真相令人震惊
  • 你还在用线性回归预测产量?R语言随机森林模型已全面超越
  • Laravel 13发布后必须掌握的技能:多模态任务队列的7种高级用法
  • some 知识点 knowledge
  • Gson和Jackson是怎么解决泛型实例化的?源码级剖析告诉你答案
  • 重新发现深圳,找个咖啡/羽毛球搭子一起探索城市的AB面
  • 请求拦截不再难,Symfony 8拦截器实现原理与最佳实践全解析
  • RAG文本分块策略:优化LLM的知识访问效率
  • 桌面那么点大,性能它偏要狂
  • 基于51单片机的智能水表系统设计
  • 基于单片机的交通控制系统
  • 永磁同步电机PMSM 5 - 7次谐波注入降低转矩脉动实践
  • 万字长文梳理如何扩展大语言模型的上下文长度:算法原理、实现方法与适用场景(RoPE、YaRN、优化Attention、RAG等)
  • 特征提取+概率神经网络 PNN 的轴承信号故障诊断模型
  • 单元测试基础知识,面试用得上...
  • 美国国务院恢复 Times New Roman 字体
  • 【万字长文】LLM+KG:大模型与知识图谱融合的黄金时代,技术前景与实现路径全解析!
  • ionet 25.2 发布
  • 谁还不知道!2025年这4款免费AI写歌工具
  • OpenNJet v3.3.1.3