Ultralytics发布YOLO26:让实时视觉检测更快更准的新“千里眼“
这项由Ultralytics团队主导开发的研究成果以技术报告形式发布于2026年6月,论文编号为arXiv:2606.03748,感兴趣的读者可通过该编号查询完整论文。
当你拿着手机扫描超市货架上的商品,当自动驾驶汽车实时识别路上的行人和障碍物,当安防摄像头在人群中搜寻异常行为——这些场景背后都有一类技术在默默运作,那就是实时目标检测。它需要在极短的时间内,从一张图片里"看出"所有物体在哪里、是什么。而在这个领域,YOLO系列模型长期以来就像是一位身经百战的"侦察兵",速度快、部署简单、适应性强,被全球无数工程师和研究者采用。
然而,这位"老侦察兵"也有一些积累已久的问题没有解决。这正是Ultralytics团队发布YOLO26的原因——他们对这套系统进行了一次全面的"升级改造",不仅修补了旧有的缺陷,还在多个任务上都拿出了更漂亮的成绩单。YOLO26在COCO这个业界标准测试集上,五种规模的模型检测精度(mAP)从40.9分到57.5分不等,对应的推理延迟仅为1.7毫秒到11.8毫秒,整体性能曲线超越了之前所有版本以及同类实时检测器。
一、老侦察兵遇到了哪些麻烦
要理解YOLO26解决了什么问题,不妨先把目标检测器想象成一支训练有素的侦察小队。这支小队的工作流程是:先在图片上密密麻麻地撒下"候选哨位",再从中筛选出真正发现目标的哨位,最后上报结果。整个过程听起来很顺畅,但在实际执行中,老版本的YOLO系列存在四个难以回避的痛点。
第一个痛点关乎"哨位汇报机制"。传统检测器在最后汇报结果时,需要经过一道叫做"非极大值抑制"(NMS)的后处理步骤。简单说,就像多个哨位同时喊"我发现了同一个目标",需要一个协调员来裁定谁说了算。这道步骤增加了部署的复杂度,也拖慢了整体速度。YOLOv10曾尝试用"双头设计"来去掉这道步骤,但做法并不理想——它让负责"训练用"的密集头和负责"实际推理用"的端到端头承受完全相同的训练压力,结果真正在上岗时使用的那个头,反而因为训练不充分而表现欠佳。
第二个痛点关于"坐标报告单的格式"。从YOLOv8开始,YOLO系列引入了一种叫做"分布焦点损失"(DFL)的边框回归方式。这种方式把原本只需要4个数字描述一个框(左、上、右、下各扩展多少像素)的任务,变成了用4乘以16共64个数字来描述。好处是能更精确地建模不确定性,坏处是模型参数量和计算量都膨胀了,尤其对小模型非常不友好。以YOLO11n为例,光是这个模块就占据了相当一部分参数和计算量。此外,DFL还有一个隐藏限制:它能描述的边框距离有上限,在高分辨率图像中,大物体的边框可能超出这个范围,导致框画得不够准。
第三个痛点是"训练耗时太长"。标准的训练配方需要大约600轮迭代才能让模型达到竞争力水平,开发迭代成本高昂。
第四个痛点涉及"小目标被忽视"。YOLO系列使用一种叫做"任务对齐学习"(TAL)的标签分配策略,这套策略要求候选锚点的中心必须落在目标框内部才算有效。但对于极小的目标,经过特征图下采样后,物体可能只占一两个像素,没有任何锚点中心能落进去,于是这个小目标在训练中完全没有得到监督,模型对它就像从未见过一样。
这四个问题,YOLO26用一套协调配合的方案逐一解决。
二、"双头侦察兵"的架构革新
YOLO26最核心的架构改变,是在检测头部分引入了一套经过重新设计的双头机制,并彻底移除了DFL模块。
关于双头设计,可以把它理解为同一批特征信息同时交给两组侦察员处理。第一组叫"一对多头",他们的工作方式是广撒网——每个真实目标对应10个候选哨位,负责给模型提供丰富的训练信号,让模型在学习阶段能充分接触到各种角度和尺度的目标。但这组侦察员只在训练时活跃,部署上线时需要走后处理(NMS)筛选流程。
第二组叫"一对一头",他们是真正在部署时上岗的侦察员。每个真实目标最终只对应一个精确匹配的预测结果,不需要NMS这个协调员来裁定,输出直接干净利落——最多300个检测框,直接可用。YOLO26对这套双头设计做出的关键改进,是引入了"渐进式损失"策略,让两组侦察员在训练阶段各司其职,而不是同等对待。训练初期,"一对多头"的权重较高(占总损失的80%),帮助模型快速建立对特征的认知;随着训练推进,权重逐渐向"一对一头"倾斜,到训练结束时,"一对一头"占据90%的损失权重。这样一来,真正上岗的那个头得到了充分磨练,而不是在训练末期还只是个"陪练"。
移除DFL是另一项大胆决定。研究团队直接用最简单的直接回归代替了那64个数字的复杂表示,只用4个数字描述边框的四个方向延伸距离,并额外加入L1损失(一种惩罚预测值与真实值之间绝对距离的训练目标)来补偿精度损失。实际效果出乎意料的好:在640像素分辨率下,去掉DFL后整体检测精度(AP)不降反升0.3个点;在1280像素高分辨率下,提升更是高达1.3个点,其中大目标的AP提升了2.2个点。这正是因为去掉了那个"距离上限"的枷锁。对应的代价是,YOLO26s相比YOLO11s减少了约0.3M参数和1.4 GFLOPs计算量,推理延迟也缩短了0.2毫秒。更实际的好处是,去掉DFL后模型的导出和跨平台部署变得更简单,因为不再依赖复杂的解码逻辑。
YOLO26还在网络结构上做了一处轻量级但有效的改进:在检测颈部(负责汇总多尺度特征的模块)插入了一个额外的注意力层,帮助模型更好地聚焦于重要的空间位置,在几乎不增加延迟的前提下提升了整体精度。完整的网络由标准卷积搭建,经过骨干网络提取特征,再经过颈部进行多尺度融合,最终分别输入到两个检测头。这套设计对标准推理引擎友好,不依赖变形注意力等特殊算子。
三、让训练更聪明的三件套
如果说架构改动是给侦察兵换了更好的装备,那么YOLO26在训练方法上的三项改进,就是给他们提供了更科学的训练计划和更合理的任务分配。
第一件是MuSGD优化器。传统YOLO系列使用标准的SGD(随机梯度下降)来更新模型参数,这就像让模型沿着一条崎岖山路下山,一步一步地寻找最优解。Muon是一种最初为大语言模型训练设计的优化器,它在每次更新之前,会对更新方向做一次"正交化"处理——可以理解为把每次迈步的方向整理得更垂直、更规整,避免在某些方向上反复踩踏,从而更高效地利用每一步训练资源。MuSGD把Muon和传统SGD融合在一起:对于卷积核、全连接权重等高维参数矩阵,使用Muon的正交化更新;对于偏置和归一化层的缩放系数等一维参数,仍使用纯SGD保持稳定。实验结果显示,使用MuSGD在500轮训练就能达到传统SGD需要600轮才能达到的精度,而且最终精度还高出0.4个mAP点。这个结论也在ImageNet分类任务上得到了验证,说明MuSGD的优势不局限于目标检测场景。
第二件是渐进式损失(Progressive Loss),前文已经提到其基本思路。这里补充一个更具体的理解角度:一对多头就像一个宽松的练习靶场,提供海量射击机会帮助士兵快速建立基础技能;一对一头则是严苛的实战考核,每次只允许精确命中一个目标。如果从第一天起就强迫士兵参加实战考核,他因为基础不牢固而频繁失误,反而影响学习效果。合理的做法是先在练习靶场打好基础,再逐渐增加实战比重。渐进式损失做的正是这件事。具体的权重变化遵循线性衰减规则:一对多的权重从0.8线性降到0.1,一对一的权重从0.2线性升到0.9,整个过程覆盖全部训练轮次,每轮更新一次。消融实验表明,这个从(0.8, 0.2)到(0.1, 0.9)的配置优于其他所有测试的变体,包括把一对多权重初始化为1.0的方案——完全压制一对一头的早期学习同样是有害的。
第三件是STAL(小目标感知标签分配)。这个方案解决的是前文提到的"小目标被忽视"问题,思路非常精妙且克制。当一个真实目标框的宽度或高度小于最小特征图步长(通常是8像素)时,STAL在候选筛选阶段会临时把这个框"膨胀"到16像素宽或高,确保至少有一些锚点中心能落进去,获得正样本。但关键在于,这个"膨胀"只在候选筛选时生效,一旦候选确定,后续的评分、分配和回归目标全部仍使用原始的真实框尺寸。这意味着模型学到的始终是正确的目标位置,而不是被虚假膨胀后的版本。STAL不会给正常尺寸的目标增加任何干扰,只是专门为那些"没有锚点能进门"的极小目标开了一扇窗。在COCO验证集上,STAL让小目标AP(APS)从29.0提升到29.6,整体AP提升0.2个点。参数sref设置为16(即第二级特征图步长)是最优选择,设置为8太弱(效果不明显),设置为32又太强(开始干扰正常目标的分配)。
四、为每项任务量身定制的专属优化
YOLO26不只是一个目标检测器,它是一个支持五种任务的统一视觉框架:目标检测、实例分割、姿态估计、图像分类和旋转框检测。在基础检测改进之上,研究团队为后三类专项任务分别设计了针对性的技术升级。
在实例分割方面,YOLO系列传统上使用一种"原型+系数"的轻量化方案:先生成一组共享的"基础模板"(原型),每个检测到的实例再预测一组系数,用这些系数对基础模板做加权叠加,得到该实例的掩码。这套方法速度快,但原型的质量直接决定了掩码的上限。YOLO26引入了"多尺度原型融合模块",把特征金字塔不同层级的特征(高分辨率但语义粗浅的底层特征,和低分辨率但语义丰富的高层特征)通过1×1卷积投影后上采样到同一分辨率,再相加融合,让生成原型的底层特征获得了更丰富的语义信息。此外,训练时还额外附加了一个语义分割监督分支,把实例标注合并为类别级别的语义掩码来提供密集梯度信号,帮助模型在原型生成阶段就建立更强的类别区分能力。这个辅助分支在推理时完全不存在,不带来任何额外计算。综合这两项改进,YOLO26在COCO实例分割任务上相比YOLO11提升了2.4到3.7个mask AP点,同时box AP提升1.6到2.5个点。
在姿态估计方面,YOLO26引入了一种叫做"残差对数似然估计"(RLE)的概率化关键点定位方法。传统的YOLO姿态模型直接回归关键点坐标,并用基于OKS(目标关键点相似度)的损失来训练,这种方式没有对不同关键点的定位难度做区分——无论是清晰可见的膝盖还是完全遮挡的脚踝,模型都用相同的"置信度"来对待。RLE在此基础上增加了一个"不确定性估计分支",为每个关节点在x和y方向分别预测一个不确定性参数σ。当σ较大时,模型相当于说"这个关节点我不太确定,损失别惩罚我太重",被遮挡或难以定位的关键点自然获得了更宽松的容忍度。同时,一个名为RealNVP的正则化流网络被用来学习残差的分布,使得不确定性估计更加精确和有原则。在COCO关键点验证集上,YOLO26端到端模式下相比YOLO11提升了2.1到7.2个AP点,提升幅度相当可观。
在旋转框检测方面,YOLO26做出了两项改进。过去YOLO系列的旋转框遵循OpenCV定义,角度范围是(0°, 90°],但这个定义在目标接近0°或90°时存在边界不稳定问题:轻微的方向变化可能导致宽高发生交换,造成角度预测的突然跳变。YOLO26改用了MMRotate框架的"长边定义",角度范围改为[-45°, 135°),同时约束宽度始终大于高度,从根本上消除了边界歧义。另外,角度预测方式也从"用sigmoid函数把预测值压缩到固定区间"改为直接输出原始预测值,去掉了非线性压缩带来的边界附近梯度饱和问题。针对正方形或近似正方形的目标(比如圆形跑道、建筑顶部),旋转不同角度后外观几乎一样,ProbIoU损失对角度变化不敏感,YOLO26额外引入了一个基于正弦函数的角度专项损失,公式设计上利用了"旋转180°等效"这一性质,并通过长宽比权重ω来控制该损失对不同形状目标的影响强度——细长目标的ω很小(主要由IoU损失约束),方形目标的ω较大(角度损失发挥更大作用)。在DOTA-v1.0这个航拍图像检测基准上,YOLO26相比YOLO11提升了2.5到3.4个mAP,而在更严格的AP75指标(IoU阈值0.75)上,提升更达到了4.6到6.0个点。
五、开放词汇检测的延伸:YOLOE-26
传统的YOLO模型只能检测训练时见过的类别,就像只认识固定几十种动物的侦察兵,遇到没见过的物种就束手无策。YOLOE是Ultralytics之前开发的开放词汇检测框架,它打破了这个限制,支持三种工作模式:给它一段文字描述(比如"绿色的背包")让它去找,给它一张参考图片让它找相似的,或者什么都不给它直接报告它认为画面里有什么。
YOLOE-26把YOLO26的增强底座嫁接到了这个框架上,同时带来了四项升级。骨干网络从原来的YOLO11换成了YOLO26,直接继承了所有检测性能的提升;文本编码器从MobileCLIP升级到了MobileCLIP2,能更准确地把文字描述转化为向量表示,与视觉特征的对齐更精准;此外,研究团队观察到训练数据中有大量物体实际存在于图像中却没有被标注,于是用一个已训练好的YOLOE模型充当"数据教师",扫描训练集,把那些置信度高于0.5、与已有标注的IoU小于0.5的新框作为伪标签补充进去,相当于给训练数据做了一次细致的查漏补缺;最后,分割头从原来与文本提示训练阶段联合训练的方式,改为先完成文本提示阶段训练后,再单独微调分割头,避免了不同任务目标之间的干扰。
消融实验清晰展示了每项改进的贡献:换用YOLO26骨干带来了1.5个AP的提升,解耦分割训练贡献了0.7个AP,文本编码器升级贡献了0.3个AP,数据引擎贡献了最大的单项提升1.3个AP。YOLOE-26x在LVIS minival文本提示模式下达到了40.6 AP,超越了DetCLIP-T(一个专为开放词汇检测设计的模型)6.2个AP点,而视觉提示模式下达到了38.5 AP。即便是参数量仅有3.9M的最小版本YOLOE-26n,在文本提示模式下也能达到24.7 AP,展示出这套设计在资源受限场景下的可用性。
六、五个规模、十九个部署目标、一套完整生态
YOLO26提供了五种规模的模型,分别以n(nano)、s(small)、m(medium)、l(large)、x(extra large)命名。nano版仅有2.4M参数和5.4 GFLOPs计算量,在NVIDIA T4 GPU上TensorRT推理延迟1.7毫秒,检测精度40.9 mAP;extra large版有55.7M参数和193.9 GFLOPs,延迟11.8毫秒,精度达到57.5 mAP。这五个规模覆盖了从边缘嵌入式芯片到服务器GPU的全部常见部署场景。
在CPU部署上,YOLO26n相比YOLO11n在ONNX格式下快了43%,这对于大量没有GPU的边缘设备来说意义重大。这种速度提升主要来自去掉DFL后解码逻辑的简化,以及模型整体结构对标准卷积运算的高度依赖(不含变形注意力等特殊算子)。
Ultralytics支持将YOLO26导出到19种格式:除了PyTorch原生格式外,还包括TorchScript、ONNX、OpenVINO、TensorRT、CoreML、TensorFlow SavedModel、TensorFlow GraphDef、TensorFlow Lite、TensorFlow Edge TPU、TensorFlow.js、PaddlePaddle、MNN、NCNN、IMX、RKNN、ExecuTorch、Axelera AI、DEEPX和Qualcomm QNN。对于不支持端到端解码中top-K操作的运行时,系统会自动回退到带NMS的一对多头路径,确保跨平台兼容性。这意味着开发者几乎不需要因为目标平台的差异去修改模型本身。
七、从消融实验看设计逻辑
YOLO26的论文以YOLO11s为基准,逐步叠加每一项改进,完整记录了每个步骤对精度、参数量、计算量和延迟的影响,让设计逻辑一目了然。
去掉DFL后,精度从47.0下降了0.6个点,但参数减少0.3M,计算量减少1.4 GFLOPs,延迟缩短0.2毫秒。加入L1损失后精度回升0.2个点,STAL再加0.2个点,骨干颈部轻量级改造再加0.2个点——三步补回的精度已经超过了DFL带来的贡献,而结构更轻量。随后开启端到端训练,E2E模式的精度是46.4,加入渐进式损失后提升到46.7,MuSGD再提到47.1,加上Objects365-v1预训练到47.4,最后经过超参数搜索到达最终的47.8(NMS路径48.6)。这条清晰的演进路径说明,YOLO26的每一项技术改进都不是凑数的,彼此形成了有机的互补关系。
说到底,YOLO26干的事情可以用一句话概括:用更简洁的结构、更聪明的训练和更有针对性的任务设计,把YOLO家族的侦察兵从头到脚重新锤炼了一遍。那个困扰已久的"报告单格式太复杂"的问题被彻底解决了,小目标被忽视的漏洞被补上了,训练时间缩短了,推理时后处理步骤也可以省掉了,还顺带把分割、姿态、旋转检测和开放词汇识别都一并升级了。从实验数据来看,在中等、大型和超大型规模上,YOLO26在精度-延迟的综合表现曲线上确实超越了同类所有实时检测器,包括D-FINE、DEIM等新近发布的方法。这项研究已通过arXiv(编号2606.03748)公开,代码和模型权重在Ultralytics的GitHub仓库中可以直接获取。如果你对实时视觉识别技术感兴趣,不妨亲自体验一下这位升级版"侦察兵"的能力。
Q&A
Q1:YOLO26的端到端模式和普通模式有什么区别,实际使用时选哪个?
A:YOLO26内置了两套检测头。端到端(E2E)模式使用一对一头,输出最多300个框,不需要后处理NMS,部署更简单、速度更快,但精度略低0.6到0.8个mAP。普通NMS模式使用一对多头,精度稍高,但需要额外的后处理步骤。对延迟敏感或部署环境受限(如部分不支持NMS的推理引擎)时选E2E,对精度要求极高且平台支持NMS时选普通模式。
Q2:YOLO26去掉DFL之后为什么精度反而提高了?
A:DFL的核心限制是它用离散分布来表示边框距离,存在一个固定上限(约为步长的15倍)。在640像素分辨率下这个限制不明显,但在1280像素高分辨率下,大目标的边框范围可能超过这个上限,导致框画不准。去掉DFL改用直接回归后,这个限制消失,配合STAL和渐进式损失补偿了定位质量,大目标AP在1280分辨率下提升了2.2个点。
Q3:YOLOE-26和普通YOLO26有什么关系,什么场景下需要用YOLOE-26?
A:YOLO26是只能识别训练时见过类别的闭集检测器。YOLOE-26在YOLO26基础上增加了文本编码器和视觉提示模块,支持用自然语言描述或参考图片来指定要检测的目标类别,即使是训练时从未出现过的类别也能定位。适合用于工业缺陷检测(缺陷难以预先穷举)、医学图像分析(病灶类型多样)或需要快速适应新类别的场景,代价是模型更大、推理略慢。
