当前位置：首页 > news >正文

033、LSKA 大核分离注意力：用深度可分离卷积模拟大核空间注意力的 YOLOv11 实现

news 2026/6/27 17:27:31

033、LSKA 大核分离注意力：用深度可分离卷积模拟大核空间注意力的 YOLOv11 实现

从一次诡异的mAP下降说起

去年秋天帮朋友调一个遥感检测模型，他用了7×7的大核注意力，结果在VisDrone上mAP掉了2个点。我第一反应是参数量爆炸了——7×7卷积的参数量是3×3的5.4倍，显存直接飙到24G。但更诡异的是，他换回3×3注意力后mAP反而回升了。这让我想起三年前在YOLOv5里硬塞CBAM的惨痛教训：大核注意力不是不好，是计算代价和梯度传播的平衡没做好。

后来翻到LSKA（Large Separable Kernel Attention）论文，发现它用深度可分离卷积把7×7拆成1×7和7×1的级联，参数量直接降到原来的1/7。更关键的是，这种分解保留了空间感受野，但避免了全尺寸大核带来的梯度弥散。今天我们就把它塞进YOLOv11的Neck里，看看能不能在保持速度的前提下提升小目标检测能力。

LSKA的核心：别被“大核”吓到

LSKA的数学表达其实很简单：给定输入特征图X，先通过1×7深度卷积捕获垂直方向上下文，再通过7×1深度卷积捕获水平方向上下文。这两个操作等价于一个7×7的深度卷积，但参数量从49降到14。注意这里用的是深度卷积（groups=in_channels），不是普通卷积——这是关键，否则参数量会翻倍。

我踩过的坑：第一次实现时用了普通卷积的1×7和7×1，结果参数量比原始7×7还大。因为普通卷积的参数量是C_in×C_out×K_h×K_w，而深度卷积是C_in×1×K_h×K_w。所以LSKA的“分离”必须建立在深度卷积基础上。

YOLOv11中的实现：手把手改代码

第一步：定义LSKA模块

在ultralytics/nn/modules/block.py里添加这个类。注意这里我用了nn.Sequential来保证计算图清晰，别学某些开源代码把多个卷积写在一个forward里。

classLSKA(nn.Module):def__init__(self,dim,kernel_size=7):super().__init__()# 这里kernel_size必须是奇数，否则padding不对称assertkernel_size%2==1,"kernel_size must be odd"pad=kernel_size//2# 深度可分离大核：先垂直后水平self.conv_v=nn.Conv2d(dim,dim,(1,kernel_size),padding=(0,pad),groups=dim)self.conv_h=nn.Conv2d(dim,dim,(kernel_size,1),padding=(pad,0),groups=dim)# 别这样写：nn.Conv2d(dim, dim, kernel_size, padding=pad, groups=dim)# 这样等价于原始大核深度卷积，没有分离效果# 门控机制：用sigmoid生成注意力权重self.gate=nn.Sequential(nn.Conv2d(dim,dim,1),# 1x1卷积融合通道信息nn.Sigmoid())defforward(self,x):# 先提取空间注意力attn=self.conv_v(x)attn=self.conv_h(attn)# 这里踩过坑：如果先做conv_h再做conv_v，感受野形状会变# 必须保持垂直->水平的顺序，才能模拟正方形感受野# 生成注意力权重并应用attn=self.gate(attn)returnx*attn

第二步：注册到YOLOv11的模块字典

在ultralytics/nn/tasks.py的parse_model函数里，找到MODEL_MAP字典，添加：

fromultralytics.nn.modules.blockimportLSKA# 在字典里添加'LSKA':LSKA,

第三步：修改配置文件

复制一份ultralytics/cfg/models/v11/yolo11.yaml，命名为yolo11-lska.yaml。在Neck部分，把C2f后面的卷积替换成LSKA。我通常这样改：

# 在Neck的每个C2f后面插入LSKA# 原始配置：# - [-1, 1, Conv, [256, 3, 2]]# 改为：# - [-1, 1, Conv, [256, 3, 2]]# - [-1, 1, LSKA, [256, 7]] # 注意dim要和输入通道数匹配

但更优雅的方式是直接替换C2f内部的卷积。我建议在C2f的bottleneck里插入LSKA，这样不会改变整体结构。具体做法：在ultralytics/nn/modules/block.py的Bottleneck类里，把self.cv2替换成LSKA。

classBottleneck(nn.Module):def__init__(self,c1,c2,shortcut=True,g=1,k=(3,3),e=0.5):super().__init__()c_=int(c2*e)self.cv1=Conv(c1,c_,k[0],1)# 这里把第二个卷积换成LSKAself.cv2=LSKA(c_,kernel_size=7)# 原来这里是Conv(c_, c2, k[1], 1)self.add=shortcutandc1==c2

第四步：训练脚本

fromultralyticsimportYOLO model=YOLO('yolo11-lska.yaml')model.train(data='coco128.yaml',epochs=100,batch=16,imgsz=640,optimizer='AdamW',lr0=0.001,weight_decay=0.05,# 这里建议用余弦退火，因为LSKA的梯度更平滑lrf=0.01,cos_lr=True,# 别用太大的warmup，LSKA在初期需要快速收敛warmup_epochs=3,warmup_momentum=0.8,warmup_bias_lr=0.1,# 数据增强要保守一点，大核注意力对遮挡敏感hsv_h=0.015,hsv_s=0.7,hsv_v=0.4,degrees=0.0,translate=0.1,scale=0.5,shear=0.0,perspective=0.0,flipud=0.0,fliplr=0.5,mosaic=1.0,mixup=0.0,)