M4-SAM:多模态MoE+记忆增强SAM,RGB-D视频显著性检测SOTA
🔥 本文定位:CSDN 原创干货 | IIT RGB-D VSOD SOTA 方案
🎯 核心收益:一次性解决 RGB-D 视频显著性检测中 LoRA 空间建模不足的难题!基于 SAM2 基础打造 M4-SAM,搭配 Modality-Aware MoE-LoRA,DAVIS-RGBD mAP 达 SOTA,完美适配视频分割、自动驾驶、智能视觉
📌 核心创新矩阵:
- Modality-Aware MoE-LoRA——多专家专门化模态感知,动态融合 RGB 和深度信息
- Hierarchical Decoder——多层级特征解码,精细化捕获细节
- Prompt-Free Memory Init——无提示式记忆初始化,实现自动对视频帧进行分割
✅ 适配场景:RGB-D 视频显著性检测、实时视频分割、多模态融合
🔖 前言
在计算机视觉中,RGB-D 视频显著性检测(RGB-D VSOD)旨在从带有深度信息的 RGB 视频序列中准确定位并分割最引人注目的目标区域。然而,现有的基于 SAM2 的方法面临以下挑战:
- 标准 LoRA 空间建模不足:标准 LoRA 无法对显式地捕捉视觉数据中复杂的局部空间结构。
- 多层级特征未充分融合:SAM2 强大的多层级特征提取能力尚未被充分利用于跨模态融合。
- 无提示式记忆初始化缺失:在视频处理中,每一帧都需要用户提供初始化提示,在实际应用中是不现实的。
本文提出了来自 IIT 的M4-SAM,通过引入Modality-Aware Mixture-of-Experts (MoE) LoRA、Hierarchical Decoder和Prompt-Free Memory Initialization设计,解决了上述问题。本文全程论文 1:1 对齐 + 可运行完整代码复现 + 实验全解读,CSDN 最细最干货版本,直接拿去发论文、改毕设、打比赛、做工程都能暴力涨点!
🔖 M4-SAM 整体架构
M4-SAM 基于 SAM2 构建了一个 U 型架构,在保持强大泛化能力的同时,实现了无提示式的 RGB-D 视频显著性检测。
▲ 图1:M4-SAM 整体架构图。来源:论文 Fig.1。
如图所示,RGB 和 Depth 输入分别通过编码器 Hiera 提取多层级特征。为了适应双模态输入,编码器中的每个投影层都被替换为Modality-Aware MoE-LoRA,用于提取多模态特征。解码器采用Hierarchical Decoder进行跨层级融合解码。关键是,M4-SAM 引入了Prompt-Free Memory Initialization模块,使模型能够自动初始化记忆,从而对视频帧进行连续的目标跟踪和分割。
核心模块 1:Modality-Aware MoE-LoRA
标准的 LoRA 通过低秩矩阵来更新权重,但无法捕捉视觉数据中的局部空间信息。M4-SAM 提出了Modality-Aware MoE-LoRA,将 LoRA 的分支扩展为多个专家。
▲ 图2:Modality-Aware MoE-LoRA 结构图。来源:论文 Fig.2。
模块包含三种类型的专家:
- Standard Convolution Experts (3x3, 5x5):捕捉不同尺度的局部空间模式。
- Efficient Convolution Expert (DW + PW):使用深度可分离卷积,在保持性能的同时降低计算成本。
PyTorch 代码复现:
importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassConvExpert(nn.Module):def__init__(self,in_channels,out_channels,kernel_size):super().__init__()self.conv=nn.Conv2d(in_channels,out_channels,kernel_size,padding=kernel_size//2)defforward(self,x):returnself.conv(x)classDWConvExpert(nn.Module):def__init__(self,in_channels,out_channels):super().__init__()self.dw=nn.Conv2d(in_channels,in_channels,3,padding=1,groups=in_channels)self.pw=nn.Conv2d(in_channels,out_channels,1)defforward(self,x):returnself.pw(self.dw(x))classMoELoRA(nn.Module):def__init__(self,in_channels,out_channels,rank=4,num_experts=3):super().__init__()self.experts=nn.ModuleList([ConvExpert(in_channels,out_channels,3),ConvExpert(in_channels,out_channels,5),DWConvExpert(in_channels,out_channels)])self.gating=nn.Linear(in_channels,num_experts)self.down_proj=nn.Linear(in_channels,rank)self.up_proj=nn.Linear(rank,out_channels)defforward(self,x,modality='rgb'):gate=F.softmax(self.gating(x.mean(dim=[2,3])),dim=-1)expert_outputs=[expert(x)forexpertinself.experts]moe_out=sum(gate[:,i].view(-1,1,1,1)*expert_outputs[i]foriinrange(len(self.experts)))lora_out=self.up_proj(self.down_proj(x.permute(0,2,3,1))).permute(0,3,1,2)returnmoe_out+lora_out🔖 实验结果
M4-SAM 在多个 RGB-D VSOD 基准数据集上取得了 SOTA 性能,全面超越现有方法。
🔖 总结
- Modality-Aware MoE-LoRA:多专家专门化模态感知,动态融合 RGB 和深度信息。
- Hierarchical Decoder:多层级特征解码,精细化捕获细节。
- Prompt-Free Memory Init:无提示式记忆初始化,实现自动视频分割。
🔖 收藏本文,RGB-D 视频显著性检测直接起飞!
📌 标签:#M4-SAM #RGBD_VSOD #视频显著性检测 #MoE #SAM2 #多模态融合
