当前位置：首页 > news >正文

别再只用COCO了！手把手教你用DOTA V1.5数据集搞定航拍小目标检测

news 2026/6/2 16:05:58

航拍目标检测实战：从DOTA V1.5数据集到工业级解决方案

当你在4000×4000像素的航拍图像中寻找那些只有几十个像素大小的车辆或船只时，传统目标检测数据集训练出的模型往往会让你失望。这不是算法不够强大，而是数据与场景的错配——就像用显微镜观察星空，工具再精密也难以奏效。

1. 为什么COCO/VOC在航拍场景中失效？

2012年ImageNet竞赛催生的深度学习革命，让目标检测技术突飞猛进。但主流数据集如COCO和PASCAL VOC都基于地面拍摄的自然场景，与航拍图像存在三个本质差异：

尺度灾难：航拍图像中，一个4000×4000像素的画面可能包含1900个目标，其中小型车辆平均仅30像素，而桥梁可达1200像素。这种40倍的尺度差异远超自然场景数据集的范畴。

方向多样性：自然场景中的物体大多遵循重力方向，而航拍视角下的目标朝向完全随机。表1对比了不同数据集的实例方向分布：

数据集类型	主要方向分布	最大方向偏差
COCO/VOC	±15°	45°
DOTA V1.5	全向均匀分布	360°

密集分布：港口中的船只、停车场里的车辆，这些在自然场景中稀疏分布的目标，在航拍图像中常以数百个/平方公里的密度聚集。传统轴对齐边界框（Axis-Aligned BBox）会产生70%以上的重叠区域，导致检测失效。

# 传统检测框与旋转框的IoU计算差异 def calculate_iou(box1, box2): # 轴对齐框计算 x_left = max(box1[0], box2[0]) y_top = max(box1[1], box2[1]) x_right = min(box1[2], box2[2]) y_bottom = min(box1[3], box2[3]) # 旋转框需使用旋转IoU算法 ...

2. DOTA V1.5数据集的革命性突破

作为目前最大的航拍目标检测数据集，DOTA V1.5的2806张图像包含188,282个实例，其创新性体现在三个维度：

2.1 任意四边形标注（OBB）

不同于常规的[x,y,w,h]标注，DOTA采用四点确定的任意四边形（8自由度）：

[(x1,y1), (x2,y2), (x3,y3), (x4,y4)]

这种标注方式对密集小目标的检测精度提升显著（如表2所示）：

标注方式	飞机AP	车辆AP	船只AP
水平框	76.9	38.7	52.3
旋转框	79.4	35.3	37.1

提示：标注时第一个点通常选择目标的"头部"，如飞机的机头位置，这对后续的跟踪任务尤为重要

2.2 多尺度训练策略

DOTA官方推荐的1024×1024裁剪策略包含关键技巧：

步长设为512像素，确保目标不被截断
设置覆盖阈值：当目标被裁剪后的可见区域<70%时标记为difficult
采用金字塔融合：将不同尺度的预测结果合并

# 图像裁剪示例命令 python tools/split.py \ --image_path img_original.png \ --output_dir patches \ --patch_size 1024 \ --stride 512

2.3 类别平衡设计

15个类别经过精心筛选：

交通工具：飞机、直升机、大型/小型车辆、船只
运动场地：网球场、篮球场、足球场等
基础设施：桥梁、环岛、海港等

特别将车辆分为大型/小型两类，因为它们在航拍图像中的特征差异比地面视角更显著。

3. 实战：基于MMRotate的检测流程

MMRotate作为OpenMMLab的旋转目标检测工具箱，提供了完整的DOTA训练支持。

3.1 环境配置

# 安装步骤 conda create -n rotate python=3.8 -y conda activate rotate pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html pip install mmcv-full -f https://download.openmmlab.com/mmcv/dist/cu111/torch1.9.0/index.html git clone https://github.com/open-mmlab/mmrotate.git cd mmrotate && pip install -r requirements/build.txt && pip install -v -e .

3.2 数据准备

DOTA数据集的特殊目录结构：

DOTA/ ├── train/ │ ├── images/ │ └── labelTxt/ ├── val/ └── test/

需使用DOTA_devkit进行格式转换：

from DOTA_devkit import dota_utils as dut # 将原始标注转为MMRotate格式 dut.dota2mmlab('DOTA/train', 'DOTA/train_1024', 1024)

3.3 模型训练

推荐使用RoI Transformer模型：

# configs/roi_transformer/r50_fpn_1x_dota.py model = dict( type='RoITransformer', backbone=dict( type='ResNet', depth=50, ...), rpn_head=dict( type='RotatedRPNHead', anchor_generator=dict( type='AnchorGenerator', scales=[8], ratios=[0.5, 1.0, 2.0], strides=[4, 8, 16, 32, 64])), roi_head=dict( type='RoITransRoIHead', bbox_roi_extractor=dict( type='SingleRoIExtractor', roi_layer=dict( type='RoIAlign', output_size=7, sampling_ratio=0)), bbox_head=dict( type='RotatedShared2FCBBoxHead', reg_class_agnostic=True)))

启动训练：

./tools/dist_train.sh configs/roi_transformer/r50_fpn_1x_dota.py 8

4. 工业部署优化技巧

4.1 小目标检测增强

特征金字塔优化：

在FPN基础上增加P2层（1/4尺度）
使用PANet加强底层特征传播
添加注意力模块（如CBAM）

锚框设计：

# 针对DOTA的锚框配置 anchor_ratios = [0.2, 0.5, 1.0, 2.0, 5.0] # 适应长条形目标 anchor_scales = [1, 2**(1/3), 2**(2/3)] # 密集尺度

4.2 TensorRT加速

将PyTorch模型转为TensorRT需特殊处理旋转框：

nvinfer1::IPluginV2* RBoxDecodePlugin::createPlugin( const char* name, const void* serialData, size_t serialLength) { return new RBoxDecode(serialData, serialLength); }

实测加速效果：