当前位置：首页 > news >正文

免训练开放词汇分割范式突破！将 SAM 3 零微调适配遥感图像分析领域，17个数据集上刷新SOTA

news 2026/6/28 22:03:20

超高分辨率的遥感图像上的分割结果，原文链接：SAM3+遥感https://mp.weixin.qq.com/s/2Dq2vhtPjdfGcGbgnvlDag

在之前谈到开放词汇分割方案时，必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类，但前者在精确定位方面常常面临挑战，后者则通常依赖于复杂的多阶段流程。

典型的如遥感图像分析领域，上述问题更为突出。如何在包含成千上万密集小型目标（如车辆、小型建筑）与广阔无定形背景（如农田、水域）的复杂场景中，实现精准的像素级识别？

更棘手的是，真实世界的遥感应用需要处理几乎无限的视觉概念，从突发的灾害损毁到新建的城市设施，模型必须能够理解从未见过的物体类别。

具备可提示概念分割的SAM3非常适配开放词汇分割任务，但直接应用预训练的SAM3模型进行特定任务的处理可行吗？在特定领域中应用SAM3到底需不需要微调呢？

今天给大家介绍的来自西交大的一篇工作，基于 SAM 3 的统一架构提供了一个比复杂的 CLIP 集成方法更强大且更简单的基础模型，用于遥感图像分析，且完全无需额外训练！项目代码已开源、论文链接如下。

# Paper SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images # 论文 https://arxiv.org/pdf/2512.08730 # 代码 https://github.com/earth-insights/SegEarth-OV-3

一、传统方法的双难困境

长期以来，遥感开放词汇语义分割领域被两大技术路线所主导，但它们各自存在明显缺陷：

CLIP 派系：基于CLIP的免训练方法（如MaskCLIP、SCLIP）虽然避免了训练成本，但由于CLIP本身是为图像级分类设计，将其直接用于像素级定位时，往往产生粗糙、模糊的边界。

SAM 辅助派系：RemoteSAM 和 InstructSAM 利用基于SAM的流程将分割与更广泛的解耦任务统一起来。然而，这些方法通常依赖于复杂的多阶段流程需要多个独立模型协同工作，或者需要针对遥感场景仍需专门训练。

二、SAM3：统一架构的降维打击

SAM3 的架构特性与遥感场景完美适配，而且能力都是原生内置的，无需额外的训练或复杂的集成。比如密集小目标、无定形背景、类别稀疏性以及开放词汇需求都是遥感分析面临的四大挑战。

SAM3 将分割、识别、存在性判断统一在一个简洁的框架中。其中三项技术与视觉无限概念的遥感图像场景天然适配。

解耦的三头架构：语义头、实例头、存在性头各司其职；
可提示的概念分割：用户可通过文本描述直接指导模型；
内置前景判断：存在性头能自动判断目标是否存在于场景中；

三、SegEarth-OV3：无需训练的遥感分割

遥感图像中存在两种截然不同的区域：需要像素级语义连续性的无定形物体，以及需要实例级边界精确度的可计数事物。

利用 SAM3 的实例头专门处理可计数对象，保证边界精确，利用其语义头处理无定形区域，保持土地覆盖的完整性。

另外在遥感场景中，一个完整的土地覆盖词汇表可能包含上百个类别，但单个图像块通常只包含其中少数几个。这种高类别稀疏性导致大量不必要的计算和误报。

SAM3 的存在性头提供了完美的解决方案：它能够快速判断某个概念是否存在于当前场景中，从而在早期就过滤掉大量无关类别，将计算资源集中在真正相关的识别任务上。

SegEarth-OV3 的有效性在17个遥感数据集和三个通用场景基准上进行了评估，展示了在多类语义分割和单类提取任务中的最先进性能：

零训练成本：完全使用原始 SAM3 权重，无需任何微调；
边界精度提升：相比 CLIP 基线上边界清晰度提升30%以上；
处理效率优化：存在性过滤减少40%不必要的计算；
通用性强：不仅在遥感场景有效，在自然图像分割基准上也表现优异；

SAM3 的解耦架构本身就能胜任遥感开放词汇分割，复杂流程和领域训练可能不再是必选项。

文末有其他几篇遥感领域大模型的文章介绍，小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群！

查看全文

http://www.cnnetsun.cn/news/68723.html

基于STM32智能营养称系统的设计与实现_352

PHP 8.6升级必看：5个关键兼容性检测步骤，避免生产环境崩溃

医疗行业PHP数据备份最佳实践（20年专家亲授方案）

4、Gateway

泛型实例化陷阱频发？资深架构师总结的6大避坑法则

hot100 2.字母异位词分组

R语言Cox回归避坑指南（临床数据建模常见错误TOP5）

是德 N9041B UXA 频谱分析仪在真空环境完成卫星信号分析

用是德DSOX1204A示波器快速捕捉与调试信号的实用指南

连接器EMC测试不过关？5步定位干扰源头，快速通过认证

为什么90%的物联网项目卡在部署阶段？真相令人震惊

你还在用线性回归预测产量？R语言随机森林模型已全面超越

Laravel 13发布后必须掌握的技能：多模态任务队列的7种高级用法

some 知识点 knowledge

Gson和Jackson是怎么解决泛型实例化的？源码级剖析告诉你答案

重新发现深圳，找个咖啡/羽毛球搭子一起探索城市的AB面

请求拦截不再难，Symfony 8拦截器实现原理与最佳实践全解析

RAG文本分块策略：优化LLM的知识访问效率

桌面那么点大，性能它偏要狂

基于51单片机的智能水表系统设计

基于单片机的交通控制系统

永磁同步电机PMSM 5 - 7次谐波注入降低转矩脉动实践

万字长文梳理如何扩展大语言模型的上下文长度：算法原理、实现方法与适用场景（RoPE、YaRN、优化Attention、RAG等）

特征提取+概率神经网络 PNN 的轴承信号故障诊断模型

单元测试基础知识，面试用得上...

美国国务院恢复 Times New Roman 字体

【万字长文】LLM+KG：大模型与知识图谱融合的黄金时代，技术前景与实现路径全解析！

ionet 25.2 发布

谁还不知道！2025年这4款免费AI写歌工具

OpenNJet v3.3.1.3

一、传统方法的双难困境

二、SAM3：统一架构的降维打击

三、SegEarth-OV3：无需训练的遥感分割

相关文章：