当前位置: 首页 > news >正文

M4-SAM:多模态MoE+记忆增强SAM,RGB-D视频显著性检测SOTA

🔥 本文定位:CSDN 原创干货 | IIT RGB-D VSOD SOTA 方案

🎯 核心收益:一次性解决 RGB-D 视频显著性检测中 LoRA 空间建模不足的难题!基于 SAM2 基础打造 M4-SAM,搭配 Modality-Aware MoE-LoRA,DAVIS-RGBD mAP 达 SOTA,完美适配视频分割、自动驾驶、智能视觉

📌 核心创新矩阵:

  1. Modality-Aware MoE-LoRA——多专家专门化模态感知,动态融合 RGB 和深度信息
  2. Hierarchical Decoder——多层级特征解码,精细化捕获细节
  3. Prompt-Free Memory Init——无提示式记忆初始化,实现自动对视频帧进行分割

✅ 适配场景:RGB-D 视频显著性检测、实时视频分割、多模态融合


🔖 前言

在计算机视觉中,RGB-D 视频显著性检测(RGB-D VSOD)旨在从带有深度信息的 RGB 视频序列中准确定位并分割最引人注目的目标区域。然而,现有的基于 SAM2 的方法面临以下挑战:

  1. 标准 LoRA 空间建模不足:标准 LoRA 无法对显式地捕捉视觉数据中复杂的局部空间结构。
  2. 多层级特征未充分融合:SAM2 强大的多层级特征提取能力尚未被充分利用于跨模态融合。
  3. 无提示式记忆初始化缺失:在视频处理中,每一帧都需要用户提供初始化提示,在实际应用中是不现实的。

本文提出了来自 IIT 的M4-SAM,通过引入Modality-Aware Mixture-of-Experts (MoE) LoRAHierarchical DecoderPrompt-Free Memory Initialization设计,解决了上述问题。本文全程论文 1:1 对齐 + 可运行完整代码复现 + 实验全解读,CSDN 最细最干货版本,直接拿去发论文、改毕设、打比赛、做工程都能暴力涨点!


🔖 M4-SAM 整体架构

M4-SAM 基于 SAM2 构建了一个 U 型架构,在保持强大泛化能力的同时,实现了无提示式的 RGB-D 视频显著性检测。

▲ 图1:M4-SAM 整体架构图。来源:论文 Fig.1。

如图所示,RGB 和 Depth 输入分别通过编码器 Hiera 提取多层级特征。为了适应双模态输入,编码器中的每个投影层都被替换为Modality-Aware MoE-LoRA,用于提取多模态特征。解码器采用Hierarchical Decoder进行跨层级融合解码。关键是,M4-SAM 引入了Prompt-Free Memory Initialization模块,使模型能够自动初始化记忆,从而对视频帧进行连续的目标跟踪和分割。

核心模块 1:Modality-Aware MoE-LoRA

标准的 LoRA 通过低秩矩阵来更新权重,但无法捕捉视觉数据中的局部空间信息。M4-SAM 提出了Modality-Aware MoE-LoRA,将 LoRA 的分支扩展为多个专家。

▲ 图2:Modality-Aware MoE-LoRA 结构图。来源:论文 Fig.2。

模块包含三种类型的专家:

  1. Standard Convolution Experts (3x3, 5x5):捕捉不同尺度的局部空间模式。
  2. Efficient Convolution Expert (DW + PW):使用深度可分离卷积,在保持性能的同时降低计算成本。

PyTorch 代码复现

importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassConvExpert(nn.Module):def__init__(self,in_channels,out_channels,kernel_size):super().__init__()self.conv=nn.Conv2d(in_channels,out_channels,kernel_size,padding=kernel_size//2)defforward(self,x):returnself.conv(x)classDWConvExpert(nn.Module):def__init__(self,in_channels,out_channels):super().__init__()self.dw=nn.Conv2d(in_channels,in_channels,3,padding=1,groups=in_channels)self.pw=nn.Conv2d(in_channels,out_channels,1)defforward(self,x):returnself.pw(self.dw(x))classMoELoRA(nn.Module):def__init__(self,in_channels,out_channels,rank=4,num_experts=3):super().__init__()self.experts=nn.ModuleList([ConvExpert(in_channels,out_channels,3),ConvExpert(in_channels,out_channels,5),DWConvExpert(in_channels,out_channels)])self.gating=nn.Linear(in_channels,num_experts)self.down_proj=nn.Linear(in_channels,rank)self.up_proj=nn.Linear(rank,out_channels)defforward(self,x,modality='rgb'):gate=F.softmax(self.gating(x.mean(dim=[2,3])),dim=-1)expert_outputs=[expert(x)forexpertinself.experts]moe_out=sum(gate[:,i].view(-1,1,1,1)*expert_outputs[i]foriinrange(len(self.experts)))lora_out=self.up_proj(self.down_proj(x.permute(0,2,3,1))).permute(0,3,1,2)returnmoe_out+lora_out

🔖 实验结果

M4-SAM 在多个 RGB-D VSOD 基准数据集上取得了 SOTA 性能,全面超越现有方法。

🔖 总结

  1. Modality-Aware MoE-LoRA:多专家专门化模态感知,动态融合 RGB 和深度信息。
  2. Hierarchical Decoder:多层级特征解码,精细化捕获细节。
  3. Prompt-Free Memory Init:无提示式记忆初始化,实现自动视频分割。

🔖 收藏本文,RGB-D 视频显著性检测直接起飞!
📌 标签:#M4-SAM #RGBD_VSOD #视频显著性检测 #MoE #SAM2 #多模态融合

http://www.cnnetsun.cn/news/2895453.html

相关文章:

  • 南京链家二手房数据自动采集+区域房价可视化分析工具包
  • QProcess进程启动与waitForFinished超时陷阱:实战场景与解决方案
  • RV1109/RV1126 QT应用从开发到部署:两种编译路径的实战解析与避坑指南
  • Visual C++ Redistributable AIO:一键解决Windows程序运行问题的终极方案
  • RT-DETR onnx模型导出踩坑记:opset版本选17还是16?LayerNormalization导出差异详解
  • 【网安】渗透测试教程(非常详细),0基础从入门到精通,看完这一篇就够了!
  • 实战指南:通过FSMO角色迁移实现AD域控制器主辅平滑切换
  • Python 语言的基本数据类型
  • COMSOL中P2D电化学-热耦合模型:同步模拟SEI增长与锂枝晶演化对电池温升和性能衰退的影响
  • PvZ Toolkit终极指南:如何突破植物大战僵尸的游戏限制
  • 终极指南:如何构建毫秒级京东抢购自动化系统
  • 计算机考研择校系统|院校|资料已整理
  • WorkshopDL终极指南:跨平台玩家的Steam创意工坊下载神器
  • 水下垃圾检测实战包:预训练YOLOv5模型+多格式标注图集+可视化PyQt操作界面
  • 3步精准迁移:用EldenRingSaveCopier拯救你的艾尔登法环存档
  • 别再为移相全桥发愁了!手把手教你用STM32F103的TIM1+TIM2输出相位可调PWM(附完整代码)
  • Java开发者必看:4步转型AI大模型工程师,收藏这份心法与实战项目!
  • VGA 音乐游戏 FPGA 设计 Verilog Vivado
  • 免费开源的图片修复和图片高清化工具,纯浏览器端实现
  • 终极免费AI背景移除工具:3分钟快速上手背景移除完整指南
  • Okbiye AI PPT:毕业论文答辩演示文稿智能制作方案,拆解平台四步标准化操作流程
  • 法考资料网盘|百度网盘|资料已整理
  • 完整的电商秒杀链路
  • 百度网盘macOS版下载加速终极指南:告别限速烦恼
  • 从Claude到Zephyr:为什么AI给AI打分(RLAIF/DPO)正在成为新趋势?
  • 飞思卡尔Kinetis K10 MCU实战:FlexMemory与低功耗设计解析
  • Flutter安卓App通过蓝牙直连徕卡TS09 Plus全站仪,实时获取测距与三维坐标数据
  • Java Flight Recorder 深度实践:从录制到分析的生产级性能诊断
  • 告别网盘限速!LinkSwift直链下载助手:免费解锁九大网盘的终极指南
  • Snap.Hutao:开源原神工具箱如何帮你节省60%游戏管理时间