当前位置：首页 > news >正文

GOT-JEPA：通用目标跟踪的创新架构与遮挡处理技术

news 2026/6/13 6:46:50

1. 通用目标跟踪的技术挑战与GOT-JEPA的创新价值

在计算机视觉领域，通用目标跟踪（Generic Object Tracking, GOT）一直被视为具有重要应用价值但技术难度极高的研究方向。这项技术的核心目标是通过视频第一帧中给定的目标边界框，持续预测该目标在后续所有帧中的精确位置。看似简单的任务描述背后，却隐藏着诸多技术挑战：

目标外观变化：跟踪过程中目标可能发生旋转、缩放、形变等几何变化
环境干扰：复杂背景、相似物体干扰、光照变化等因素增加识别难度
遮挡处理：目标被部分或完全遮挡时的持续跟踪能力
泛化能力：对训练数据中未出现过的目标类别的适应能力

传统跟踪方法主要采用"检测-跟踪"（Tracking-by-Detection）范式，这类方法虽然在特定场景下表现良好，但存在两个根本性缺陷：

模型过拟合问题：跟踪器在训练过程中过度优化于特定目标类别，导致面对未见过的目标类型时性能急剧下降
粗粒度遮挡处理：现有方法通常将目标视为整体边界框进行处理，无法精确感知目标哪些部分被遮挡，哪些部分仍然可见

1.1 JEPA架构的跨界应用

GOT-JEPA的创新之处在于将联合嵌入预测架构（Joint-Embedding Predictive Architecture, JEPA）从原本的图像特征预测领域，创造性地迁移到跟踪模型预测任务中。JEPA最初由Yann LeCun团队提出，其核心思想是通过预测一个信号在嵌入空间中的表示来学习可迁移的特征表示。

在GOT-JEPA框架中，这种预测架构被重新诠释：

教师预测器（t-Predictor）从干净的当前帧生成伪跟踪模型
学生预测器（s-Predictor）则学习从经过干扰的当前帧预测相同的伪跟踪模型

这种设计带来了三重优势：

稳定的伪监督：教师模型保持冻结状态，确保监督信号的稳定性
增强的鲁棒性：学生模型必须从干扰数据中恢复目标特征，强制学习更强大的表示
改进的泛化：通过多样化的数据干扰，模型学会关注目标的本质特征而非表面纹理

关键提示：GOT-JEPA中的"干扰"策略不是简单的数据增强，而是系统性地模拟真实跟踪场景中可能遇到的各种挑战情况，包括但不限于遮挡、运动模糊、光照变化等复杂条件。

2. GOT-JEPA的核心架构与技术实现

2.1 整体框架设计

GOT-JEPA的系统架构包含三个关键组件，如图2所示：

模型预测器预训练模块（图2a）
- 采用JEPA架构的教师-学生框架
- 教师分支处理干净帧，学生分支处理干扰帧
- 两分支共享相同的历史信息（参考帧和标签）
定位任务适配模块（图2b）
- 将预训练的模型预测器集成到跟踪头
- 包含分类解码器(ClsDec)和回归解码器(RegDec)
- 进行端到端的微调以适应具体跟踪任务
遮挡感知增强模块（图2c）
- OccuSolver组件处理点级可见性估计
- 集成点跟踪器与对象先验信息
- 通过Ensemble Network融合视觉特征与可见性线索

2.2 模型预测器的JEPA训练机制

模型预测器的训练过程采用独特的双重损失设计：

不变性损失（Invariance Loss）：

Linv(ω, ˆω) = 1/n Σ∥ωi - ˆωi∥²

其中ω表示学生预测的跟踪模型，ˆω是教师生成的伪标签。该损失强制学生预测器在输入受到干扰的情况下仍能产生与教师一致的输出。

协方差损失（Covariance Loss）：

Lcov(ωexp) = 1/c Σ[covM(ωexp)]²i,j (i≠j)

covM(·)计算预测跟踪模型的协方差矩阵。通过最小化非对角线元素，减少特征间的冗余，促使模型学习更丰富多样的判别模式。

两项损失的加权组合构成完整的模型预测目标：

Lmp = αLinv + βLcov

2.3 跟踪头的具体实现

跟踪头包含两个关键解码器：

分类解码器（ClsDec）：
- 输入：精炼的当前帧特征zcur ∈ R^{H×W×C}
- 操作：与跟踪模型ω进行卷积运算
- 输出：分类得分图p ∈ R^{H×W}
```
p = ω ∗ zcur
```
回归解码器（RegDec）：
- 输入：加权后的特征图
- 结构：四个独立的卷积层
- 输出：回归图d ∈ R^{H×W×4}（ltrb边界框表示）
```
d = RegDec((ω ∗ zcur) · zcur)
```

这种双解码器设计实现了分类与定位的解耦，使模型能够更精确地处理目标外观变化和位置预测。

3. OccuSolver：精细化遮挡处理方案

3.1 从点到对象的可见性推理

传统点跟踪器（如CoTracker）存在两个关键局限：

对象无关性：独立跟踪各个点，缺乏整体对象概念
稀疏采样：通常只跟踪128个点左右，难以全面覆盖目标

OccuSolver的创新在于将点跟踪器改造为对象感知系统：

对象先验注入：
- 使用GOT产生的参考标签(pa, pb)作为对象先验
- 通过Prior Encoder编码为特征表示
- 以元素相加方式融合到点跟踪器的图像特征中
迭代精炼机制：
- 外观特征Q ∈ R^F与点轨迹PT ∈ R^2拼接形成输入token
- 通过迭代Transformer逐步精炼：
```
O(PT^{(m+1)}, Q^{(m+1)}) = iter-Trans(PT^{(m)}, Q^{(m)})
```
- 最终输出送入Point Head和VisHead进行坐标预测和可见性估计
轻量级适配网络：
- 使用两层四头Transformer(light-Trans)微调点特征
- 通过ScaleNet进行维度调整和特征融合：
```
Qcond = ˆQ + ΔQ, where ˆQ = ScaleNet(ΣˆQ^{(m)})
```

3.2 可见性特征与视觉特征的集成

OccuSolver产生的稀疏点级可见性信息通过Ensemble Network与密集视觉特征融合：

空间编码：
- 对每个跟踪点应用高斯核生成能量图e
- 不可见点的能量图取反(1-e)
- 拼接所有能量图得到E ∈ R^{H×W×C}
特征调制：
- 将E与当前帧特征zcur拼接
- 通过轻量Transformer建模视觉-可见性交互：
```
˜E = Transformer(E, zcur)
```
最终融合：
```
˜zcur = E(˜E, zcur)
```
这种融合机制使跟踪器能够同时利用外观信息和精确的可见性估计。