当前位置：首页 > news >正文

M4-SAM：多模态MoE+记忆增强SAM，RGB-D视频显著性检测SOTA

news 2026/6/12 21:56:02

🔥 本文定位：CSDN 原创干货 | IIT RGB-D VSOD SOTA 方案
🎯 核心收益：一次性解决 RGB-D 视频显著性检测中 LoRA 空间建模不足的难题！基于 SAM2 基础打造 M4-SAM，搭配 Modality-Aware MoE-LoRA，DAVIS-RGBD mAP 达 SOTA，完美适配视频分割、自动驾驶、智能视觉
📌 核心创新矩阵：
Modality-Aware MoE-LoRA——多专家专门化模态感知，动态融合 RGB 和深度信息
Hierarchical Decoder——多层级特征解码，精细化捕获细节
Prompt-Free Memory Init——无提示式记忆初始化，实现自动对视频帧进行分割
✅ 适配场景：RGB-D 视频显著性检测、实时视频分割、多模态融合

🔖 前言

在计算机视觉中，RGB-D 视频显著性检测（RGB-D VSOD）旨在从带有深度信息的 RGB 视频序列中准确定位并分割最引人注目的目标区域。然而，现有的基于 SAM2 的方法面临以下挑战：

标准 LoRA 空间建模不足：标准 LoRA 无法对显式地捕捉视觉数据中复杂的局部空间结构。
多层级特征未充分融合：SAM2 强大的多层级特征提取能力尚未被充分利用于跨模态融合。
无提示式记忆初始化缺失：在视频处理中，每一帧都需要用户提供初始化提示，在实际应用中是不现实的。

本文提出了来自 IIT 的M4-SAM，通过引入Modality-Aware Mixture-of-Experts (MoE) LoRA、Hierarchical Decoder和Prompt-Free Memory Initialization设计，解决了上述问题。本文全程论文 1:1 对齐 + 可运行完整代码复现 + 实验全解读，CSDN 最细最干货版本，直接拿去发论文、改毕设、打比赛、做工程都能暴力涨点！

🔖 M4-SAM 整体架构

M4-SAM 基于 SAM2 构建了一个 U 型架构，在保持强大泛化能力的同时，实现了无提示式的 RGB-D 视频显著性检测。

▲ 图1：M4-SAM 整体架构图。来源：论文 Fig.1。

如图所示，RGB 和 Depth 输入分别通过编码器 Hiera 提取多层级特征。为了适应双模态输入，编码器中的每个投影层都被替换为Modality-Aware MoE-LoRA，用于提取多模态特征。解码器采用Hierarchical Decoder进行跨层级融合解码。关键是，M4-SAM 引入了Prompt-Free Memory Initialization模块，使模型能够自动初始化记忆，从而对视频帧进行连续的目标跟踪和分割。

核心模块 1：Modality-Aware MoE-LoRA

标准的 LoRA 通过低秩矩阵来更新权重，但无法捕捉视觉数据中的局部空间信息。M4-SAM 提出了Modality-Aware MoE-LoRA，将 LoRA 的分支扩展为多个专家。

▲ 图2：Modality-Aware MoE-LoRA 结构图。来源：论文 Fig.2。

模块包含三种类型的专家：

Standard Convolution Experts (3x3, 5x5)：捕捉不同尺度的局部空间模式。
Efficient Convolution Expert (DW + PW)：使用深度可分离卷积，在保持性能的同时降低计算成本。

PyTorch 代码复现：

importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassConvExpert(nn.Module):def__init__(self,in_channels,out_channels,kernel_size):super().__init__()self.conv=nn.Conv2d(in_channels,out_channels,kernel_size,padding=kernel_size//2)defforward(self,x):returnself.conv(x)classDWConvExpert(nn.Module):def__init__(self,in_channels,out_channels):super().__init__()self.dw=nn.Conv2d(in_channels,in_channels,3,padding=1,groups=in_channels)self.pw=nn.Conv2d(in_channels,out_channels,1)defforward(self,x):returnself.pw(self.dw(x))classMoELoRA(nn.Module):def__init__(self,in_channels,out_channels,rank=4,num_experts=3):super().__init__()self.experts=nn.ModuleList([ConvExpert(in_channels,out_channels,3),ConvExpert(in_channels,out_channels,5),DWConvExpert(in_channels,out_channels)])self.gating=nn.Linear(in_channels,num_experts)self.down_proj=nn.Linear(in_channels,rank)self.up_proj=nn.Linear(rank,out_channels)defforward(self,x,modality='rgb'):gate=F.softmax(self.gating(x.mean(dim=[2,3])),dim=-1)expert_outputs=[expert(x)forexpertinself.experts]moe_out=sum(gate[:,i].view(-1,1,1,1)*expert_outputs[i]foriinrange(len(self.experts)))lora_out=self.up_proj(self.down_proj(x.permute(0,2,3,1))).permute(0,3,1,2)returnmoe_out+lora_out