当前位置：首页 > news >正文

别再让池化层‘吞掉’小目标！用SPD-Conv改造YOLOv5，实测低分辨率图片检测精度提升

news 2026/7/4 19:00:37

用SPD-Conv重构YOLOv5：低分辨率图像中小目标检测的工程实践

当无人机在百米高空拍摄的航拍图像中，那些仅有十几个像素大小的车辆目标从检测框中消失时；当监控摄像头在夜间模式下拍摄的模糊画面中，关键人物被算法"视而不见"时——这些场景揭示了当前目标检测技术的一个致命软肋：小目标和低分辨率图像的检测困境。传统卷积神经网络通过strided convolution和pooling层进行下采样的方式，本质上是对信息的粗暴丢弃，就像用筛子过滤金矿，细小的金粒永远最先流失。

1. 传统下采样为何成为小目标"杀手"

在YOLOv5等主流检测架构中，Backbone网络通常包含多个下采样阶段。以YOLOv5s为例，其Backbone包含5个下采样阶段，最终将输入图像压缩为原尺寸的1/32。这种设计在常规场景下表现优异，但当面对以下两种情况时就会暴露出结构性问题：

低分辨率输入（如640×480的监控画面）：原始信息量本就有限，经过多次下采样后，特征图可能只剩下20×15的分辨率
小目标检测（如航拍图像中的车辆）：10×10像素的目标在第三次下采样后就只剩1个像素的表示

# YOLOv5默认的下采样模块示例（stride=2的卷积） class Conv(nn.Module): def __init__(self, c1, c2, k=1, s=1): super().__init__() self.conv = nn.Conv2d(c1, c2, k, s, k//2, bias=False) self.bn = nn.BatchNorm2d(c2) self.act = nn.SiLU() # 典型的下采样调用：s=2表示步长为2 self.conv = Conv(c1, c2, k=3, s=2) # 特征图尺寸减半

关键发现：当目标尺寸小于下采样后的特征图网格大小时，该目标在后续处理中几乎不可能被正确检测

2. SPD-Conv的革新设计原理

SPD-Conv（Space-to-Depth Convolution）的核心创新在于用无损下采样替代传统的有损下采样。其由两个关键组件构成：

Space-to-Depth(SPD)层：将空间信息转移到通道维度
- 输入尺寸：[B, C, H, W]
- 输出尺寸：[B, 4C, H/2, W/2]
非步长卷积层：用于通道数调整和特征融合

与常规下采样对比：

特性	传统Strided Conv	SPD-Conv
信息保留	丢失3/4像素信息	100%保留原始信息
计算复杂度	较低	较高
特征图通道变化	可自由设置	必须为4的倍数
对小目标敏感度	不敏感	高度敏感

class SPD(nn.Module): def __init__(self, dimension=1): super().__init__() self.d = dimension def forward(self, x): return torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1) # 配套使用的非步长卷积 class Conv_SPD(nn.Module): def __init__(self, c1, c2, k=1): super().__init__() self.spd = SPD() self.conv = Conv(c1*4, c2, k) # 注意输入通道变为4倍 def forward(self, x): return self.conv(self.spd(x))

3. YOLOv5集成SPD-Conv的实战改造

3.1 Backbone网络改造要点

以YOLOv5s为例，需要替换以下关键模块：

Focus层替代：原Focus层使用切片操作进行下采样

# 原Focus层（YOLOv5 v6.0之前） class Focus(nn.Module): def __init__(self, c1, c2, k=1): super().__init__() self.conv = Conv(c1*4, c2, k) def forward(self, x): # x(b,c,w,h) -> y(b,4c,w/2,h/2) return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1)) # 改造为SPD版本 class Focus_SPD(nn.Module): def __init__(self, c1, c2, k=1): super().__init__() self.spd = SPD() self.conv = Conv(c1*4, c2, k)

下采样卷积替换：将stride=2的常规卷积全部替换为SPD-Conv组合

3.2 训练配置调整建议

由于SPD-Conv改变了特征提取方式，需要相应调整训练参数：

学习率：初始学习率建议降低为原来的0.8倍
数据增强：
- 减少随机裁剪比例（避免人为制造"小目标"）
- 增加Mosaic增强的概率
损失函数权重：
- 适当提高小目标检测头的权重
- 调整obj_loss的增益系数

实践提示：首次训练时建议冻结Backbone的前3个stage，只训练最后2个stage和Head部分，待loss稳定后再解冻全部参数

4. 在VisDrone数据集上的性能验证

我们在无人机航拍数据集VisDrone上进行了对比实验，测试集包含1580张图像，其中小目标（<32×32像素）占比达63%。实验结果如下：

模型	mAP@0.5	小目标召回率	参数量(M)	推理速度(ms)
YOLOv5s原版	23.1	17.4%	7.2	8.2
+SPD-Conv改造	28.7	35.2%	9.1	11.6
YOLOv5m原版	26.5	21.8%	21.2	12.4
+SPD-Conv改造	31.3	39.6%	24.8	16.3

典型检测效果对比：

传统YOLOv5：在密集小目标场景下平均漏检率达45%，且存在大量误检
SPD改进版：能够检测出80%以上的小目标，误检率降低30%

# 测试代码片段示例 from utils.metrics import box_iou def evaluate_small_target(model, dataloader, size_thresh=32): stats = {'TP':0, 'FP':0, 'FN':0} for imgs, targets, _ in dataloader: preds = model(imgs) for i, (pred, target) in enumerate(zip(preds, targets)): small_mask = (target[:, 2:4].prod(1) < size_thresh**2) small_targets = target[small_mask] ious = box_iou(pred[:, :4], small_targets[:, :4]) # ...统计计算TP/FP/FN... return stats

5. 工程部署的优化策略

虽然SPD-Conv带来了检测精度的提升，但也增加了计算负担。以下是几种实用的优化方案：

方案一：混合下采样策略

前3个stage使用SPD-Conv（保护小目标特征）
后2个stage使用传统下采样（保证推理速度）

方案二：通道裁剪技术

# SPD后的通道压缩示例 class SPD_Compress(nn.Module): def __init__(self, c1, c2, k=1, r=0.5): super().__init__() self.spd = SPD() self.conv1 = Conv(c1*4, int(c1*4*r), k) self.conv2 = Conv(int(c1*4*r), c2, k) def forward(self, x): return self.conv2(self.conv1(self.spd(x)))

方案三：量化部署优化