当前位置: 首页 > news >正文

这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

全文总结

元宝

研究背景

  1. 研究问题:

    这篇文章旨在解决多模态3D检测稀疏检测器的性能问题。尽管稀疏检测器在计算成本和下游任务适应性方面优于基于鸟瞰图(BEV)的检测器,但现有的稀疏检测器忽略了token表示的质量,导致前景质量不佳和性能有限。

  2. 研究难点:

    该问题的研究难点在于如何提高稀疏检测器中token的质量,特别是在几何结构和类别分布方面的优化。现有的token采样策略依赖于简单的top-k操作,容易导致小物体token的丢失和对象边界的缺失。

  3. 相关工作:

    现有工作主要包括基于LiDAR的3D检测、基于相机的3D检测和多模态3D检测。基于LiDAR的检测器利用点云的几何信息进行精确定位,而基于相机的检测器则通过多视图图像捕捉丰富的语义信息。多模态3D检测方法通过融合LiDAR和相机数据,利用两者的互补优势来提高检测性能。

研究方法

本文提出了一种名为CrossRay3D的稀疏多模态检测器,主要通过Sparse Selector (SS)模块来提高token采样的质量。具体方法如下:

  1. Sparse Selector (SS):

    • Ray-Aware Supervision (RAS): 通过在训练阶段恢复高几何信息,利用从光学中心到物体的射线作为对象结构导向的监督,生成高结构前景token。具体来说,RAS通过射线与地面真实框的交集来标记正负样本,并通过卷积操作进行token采样。

    • Class-balancedSupervision (CBS): 通过调整token的显著性权重,避免在token采样过程中丢失小物体token。CBS损失函数根据地面真实类别的分布重新加权token的显著性,公式如下:

      Wn​={λ,Sigmoid(max(y^​n,c​)),​ if n∈ distribution, otherwise,​

      其中,λ≥1是超参数,y^​n,c​是第n个token的类别概率分布。

  2. Ray Positional Encoding (Ray PE):

    • 为了解决图像和LiDAR数据之间的分布差异,提出了Ray PE,通过采样3D锚点沿射线生成位置编码,映射相机和BEV位置编码到统一的3D空间,实现多模态特征的直接交互。

  3. Decoder and Loss:

    • 使用标准的Transformer解码器,通过Ray PE和潜在空间,查询与多模态稀疏token直接交互,预测3D边界框。损失函数包括CBS损失、分类损失和回归损失,公式如下:

      L=ω1​Lt​+Lcls​(c,c^)+Lreg​(b,b^),

      其中,ω1​是平衡CBS损失的超参数。

实验设计

  1. 数据集:

    • 实验在nuScenes数据集上进行,该数据集包含1000个场景,分为训练集、验证集和测试集,分别包含700、150和150个场景。每个场景包含6个摄像头和1个LiDAR传感器的数据。

  2. 评估指标:

    • 使用官方的nuScenes指标,包括nuScenes Detection Score (NDS)、mean Average Precision (mAP)、mean Average Translation Error (mATE)等。

  3. 实现细节:

    • 图像特征提取使用ResNet50,LiDAR特征提取使用3D稀疏骨干网络。模型在2个A40 GPU上训练20个epoch,批量大小为12。

结果与分析

  1. 主要结果:

    • 在nuScenes测试集上,CrossRay3D达到了74.7%的NDS和72.4%的mAP,超过了现有的最先进方法,并且在推理速度上是其他领先方法的两倍。

    • 在nuScenes验证集上,CrossRay3D也表现出色,特别是在处理遮挡和远距离小物体方面。

  2. 消融实验:

    • RAS的效果: 添加RAS后,CrossRay3D在NDS和mAP上分别提高了1.4%和1.6%,并且计算成本仅增加了0.1 FPS。

    • CBS的效果: CBS损失函数在类平衡监督方面表现出色,特别是在小物体(如障碍物和交通锥)的AP上提高了0.3%。

    • Ray PE的效果: 添加Ray PE后,mAP显著提高了9.3%,证明了其在稀疏特征表示中的有效性。

    • Token保留比例的影响: 减少保留的token数量可以降低计算负载,同时保持较高的检测精度。

总体结论

本文提出了CrossRay3D,一种端到端的稀疏多模态检测器,通过几何结构和类别分布的联合优化,实现了高质量的token采样。实验结果表明,CrossRay3D在nuScenes数据集上达到了最先进的性能,并且在计算效率和鲁棒性方面具有显著优势。未来的工作将集中在进一步优化骨干网络和探索不同模态的互补优势。

http://www.cnnetsun.cn/news/68432.html

相关文章:

  • 特征提取+概率神经网络 PNN 的轴承信号故障诊断模型
  • 单元测试基础知识,面试用得上...
  • 美国国务院恢复 Times New Roman 字体
  • 【万字长文】LLM+KG:大模型与知识图谱融合的黄金时代,技术前景与实现路径全解析!
  • ionet 25.2 发布
  • 谁还不知道!2025年这4款免费AI写歌工具
  • OpenNJet v3.3.1.3
  • 续约上港!张琳芃 400 万冲第 12 冠
  • 2023A卷,区块链文件转储系统
  • 动态图表自由切换,R Shiny多输入控件协同设计全解析
  • 基于单片机的视力保护器设计
  • WebSocket 协议详解:ws 和 wss 的区别与应用
  • 【Matlab】基于图像处理的苹果质量检测分级系统
  • 从零构建高质量纹理管线:5个专业团队都在用的行业标准流程
  • 【紧急避坑】:低代码项目中事件冒泡失控的6大诱因及应对策略
  • 【低代码PHP组件更新机制揭秘】:掌握高效迭代的5大核心策略
  • qubit初始化失败?90%开发者忽略的3个关键参数配置
  • 稿定设计:非专业用户的设计入门解决方案
  • YOLOv11香烟包装印章智能识别系统:从原理到实现完整指南
  • 别再手动清除缓存了!Symfony 8自动化缓存管理全方案
  • 从零构建空间转录组细胞聚类流程,手把手教你用R语言实现精准分群
  • 杨建允:AI搜索趋势对互联网营销的影响
  • K8S系列之7.2:异构计算(GPU与vGPU在K8S中的管理与应用)
  • FOTA升级进阶:文件系统直接升级与串口分段传输深度解析!
  • 从零实现行为树,深度剖析节点逻辑与黑板通信机制
  • 生物信息学高手私藏技巧:甲基化数据标准化与批次效应校正(R代码全公开)
  • 跑酷游戏 开始场景 资源加载 cocos3.8.7
  • 基于52单片机的楼道智能照明系统设计与实现
  • 基于52单片机的红绿灯控制系统设计
  • 【专家亲授】农业物联网系统中PHP网关协议选型避坑指南