当前位置: 首页 > news >正文

【TAPIR】任意点跟踪:逐帧初始化+时序精炼的两阶段点追踪架构深度解析

摘要

TAPIR(Tracking Any Point with per-frame Initialization and temporal Refinement)由Google DeepMind提出,是一个能够在视频中跟踪任意物理表面点的模型。其核心设计是两阶段管线:第一阶段通过全局匹配逐帧独立初始化候选轨迹,第二阶段通过局部相关性的时序深度卷积网络迭代精炼。在TAP-Vid benchmark上,TAPIR在DAVIS数据集上实现~20% AJ绝对提升(61.3 vs PIPs 42.0),同时比PIPs快120倍。论文发表于ICCV 2023。


论文:TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement
代码:google-deepmind/tapnet


一、问题背景

点跟踪(Point Tracking)的目标是:给定视频中某一帧的一个查询点( x , y , t ) (x, y, t)(x,y,t),预测该物理表面点在所有其他帧中的位置以及可见性。

现有方法的局限:

  • TAP-Net(2022):全局匹配一次性输出,无时序精炼,精度受限于低分辨率特征
  • PIPs(Persistent Independent Particles):通过"Chaining"在时间块间传递跟踪,但速度极慢(50帧需34.5秒),且MLP-Mixer架构需要固定时间块长度

TAPIR的核心洞察:将TAP-Net的全局初始化能力与PIPs的局部精炼能力结合,同时用全卷积替代MLP-Mixer消除块处理的瓶颈。

二、核心方法

2.1 整体架构

图 1:TAPIR两阶段架构。重点看Stage 2的迭代精炼——12层深度卷积网络输出位置/遮挡/不确定性/特征四路残差,迭代4次收敛。来源:重绘自 design skill

Yes

No

Video + Query Point

TSM-ResNet18 Backbone

Stage 1: Global Cost Volume

Spatial Softmax → Coarse Position

Stage 2: Local 7x7 Correlation

12-Block Depthwise Conv

Iteration < 4?

Final Track + Visibility

2.2 Stage 1: 逐帧初始化(Per-Frame Initialization)

骨干网络:TSM-ResNet18,输出stride-8特征图F ∈ R T × H 8 × W 8 × C F \in \mathbb{R}^{T \times \frac{H}{8} \times \frac{W}{8} \times C}FRT×8H×8W×C

全局匹配流程

  1. 在查询帧t q t_qtq的位置( x q , y q ) (x_q, y_q)(xq,yq)通过双线性插值提取查询特征F q F_qFq
  2. 对每一帧计算Cost Volume:F q F_qFq与该帧所有位置的点积
  3. ConvNet处理Cost Volume→ \rightarrow空间热力图
  4. Spatial Softmax→ \rightarrow概率分布→ \rightarrow加权平均得到位置估计p ^ t \hat{p}_tp^t

初始化Loss

L ( p ^ t , o t , u t ) = Huber ( p ^ t , p t ) ⋅ ( 1 − o ^ t ) + BCE ( o ^ t , o t ) + BCE ( u ^ t , u t ) ⋅ ( 1 − o ^ t ) \mathcal{L}(\hat{p}_t, o_t, u_t) = \text{Huber}(\hat{p}_t, p_t) \cdot (1 - \hat{o}_t) + \text{BCE}(\hat{o}_t, o_t) + \text{BCE}(\hat{u}_t, u_t) \cdot (1 - \hat{o}_t)L(p^t,ot,ut)=Huber(p^t,pt)(1o^t)+BCE(o^t,ot)+BCE(u^t,ut)(1o^t)

其中不确定性标签u t u_tut为自监督生成:

u ^ t = { 1 if ∥ p pred − p gt ∥ > δ 0 otherwise , δ = 6 pixels \hat{u}_t = \begin{cases} 1 & \text{if } \|p_{\text{pred}} - p_{\text{gt}}\| > \delta \\ 0 & \text{otherwise} \end{cases}, \quad \delta = 6 \text{ pixels}u^t={10ifppredpgt>δotherwise,δ=6pixels

推理时可见性判定:( 1 − u t ) ⋅ ( 1 − o t ) > 0.5 (1 - u_t) \cdot (1 - o_t) > 0.5(1ut)(1ot)>0.5

2.3 Stage 2: 迭代时序精炼(Temporal Refinement)

这是TAPIR精度提升的核心。消融实验表明去掉精炼后DAVIS AJ从61.3暴跌至41.6(-32%)。

Local Score Maps:在当前位置估计p t ( i ) p_t^{(i)}pt(i)周围提取7 × 7 7 \times 77×7邻域的多尺度相关性分数,使用特征金字塔(3-5层,stride 8/16/32/64/128)。

精炼网络:12层深度卷积网络(Depthwise Convolutional Network)

  • 输入维度:T × ( C + K + 4 ) T \times (C + K + 4)T×(C+K+4),其中K KK为展平的score map值
  • 每层结构:1 × 1 1 \times 11×1Conv + Depthwise Conv(时间维度)+ GeLU
  • 隐藏维度:512 → 2048 512 \rightarrow 20485122048(通过4路并行depthwise conv扩展)→ 512 \rightarrow 512512
  • 残差连接贯穿

输出(每次迭代):四路残差

( Δ P t ( i ) , Δ o t ( i ) , Δ u t ( i ) , Δ F q , t ( i ) ) (\Delta P_t^{(i)},\; \Delta o_t^{(i)},\; \Delta u_t^{(i)},\; \Delta F_{q,t}^{(i)})(ΔPt(i),Δot(i),Δut(i),ΔFq,t(i))

位置累积更新p t ( i + 1 ) = p t ( i ) + Δ P t ( i ) p_t^{(i+1)} = p_t^{(i)} + \Delta P_t^{(i)}pt(i+1)=pt(i)+ΔPt(i),特征更新使查询特征适应目标外观变化。

为什么用Depthwise Conv替代MLP-Mixer?

  • MLP-Mixer需要固定时间块长度,不同块间要Chaining传递
  • Depthwise Conv在时间维度做局部卷积,天然支持任意长度
  • 无需分块→ \rightarrow无需Chaining→ \rightarrow速度从34.5s降到0.25s

2.4 自监督不确定性估计

TAPIR的不确定性是自监督的:训练时用预测位置与GT的距离是否超过阈值δ \deltaδ来生成伪标签。推理时低置信度预测被抑制,显著提升benchmark分数(去掉后Kinetics AJ从57.2降到54.4)。

三、实验分析

3.1 TAP-Vid Benchmark

图 2:迭代精炼收敛过程与消融分析。重点看左侧:4次迭代后AJ趋于平台;右侧消融中去掉Refinement影响最大。来源:重绘自 design skill

方法Kinetics AJDAVIS AJRGB-Stacking AJKubric AJ
TAP-Net46.638.459.965.4
PIPs35.342.037.359.1
TAPIR57.261.362.784.7

3.2 高分辨率扩展

TAPIR支持图像金字塔推理(对数间隔分辨率,最低256x256逐步x2到原始分辨率):

分辨率DAVIS AJKinetics AJ
256x25661.357.2
1080p65.7-
720p-60.0

3.3 速度对比(V100 GPU,50点)

方法25帧50帧参数量
TAP-Net0.05s0.09s2.8M
PIPs17.9s34.5s28.7M
TAPIR0.15s0.25s29.3M

TAPIR与PIPs参数量相当(29.3M vs 28.7M),但快120倍。实时推理可达256点@256x256@40fps。

3.4 消融分析

去掉组件Kinetics AJDAVIS AJ影响
Full Model57.261.3-
- Iterative Refinement48.141.6最关键(-32%)
- Higher Res Feature54.054.0-12%
- Depthwise Conv54.953.8-12%
- Uncertainty54.458.6-4.4%
- TAP-Net Init54.759.3-3.3%

精炼迭代次数:1次+7.6 AJ,2次+1.0,3次+0.1,4次+0.4后plateau。

四、关键设计决策

4.1 Coarse-to-Fine策略

Stage 1用stride-8低分辨率全局匹配避免局部最优,Stage 2在高分辨率局部邻域精细对齐。类似光流中先计算粗光流再warp精炼的经典范式,但TAPIR将其统一到单个可训练框架中。

4.2 训练数据的关键性

TAPIR仅用合成数据(Kubric MOVi-E,100K视频)训练。关键改进是Panning MOVi-E变体:相机沿线性轨迹运动,模拟真实视频中的相机平移。这一改动使Kinetics AJ从54.1提升到57.2(+3.1)。

4.3 查询特征更新机制

精炼中不仅更新位置,还更新查询特征F q F_qFq。这使得跟踪器能适应目标外观变化(如光照、形变),而非始终依赖初始帧的静态特征。

小结

TAPIR的核心贡献是证明了全局初始化 + 局部迭代精炼的两阶段范式在点跟踪中的有效性,且全卷积架构使其兼具高精度与高效率。

创新点

  1. 两阶段设计融合TAP-Net全局匹配与PIPs局部精炼的各自优势
  2. 全卷积Depthwise Conv替代MLP-Mixer,消除Chaining瓶颈,速度提升120倍
  3. 自监督不确定性估计,无需额外标注即可抑制低置信度预测

局限性

  • 仅用合成数据训练,对真实世界极端场景泛化有限
  • 查询点需要手动指定,不支持自动发现可跟踪点
  • 遮挡恢复依赖于Stage 1的全局匹配质量
  • 长期跟踪(>50帧)精度可能因特征漂移下降

个人判断:TAPIR确立了"初始化+精炼"作为点跟踪标准范式(后续CoTracker、BootsTAP均沿用)。其设计哲学直接影响了VGGT等后续工作:先用全局attention建立粗对应,再用局部信息精炼。对VIO系统的启示——TAPIR的自监督不确定性估计可直接用于前端特征跟踪的质量评估,其"失败时回退到全局重匹配"的策略与VIO中跟踪丢失后的重定位逻辑一脉相承。

http://www.cnnetsun.cn/news/2843822.html

相关文章:

  • Paperxie 双维度文本优化:打破降重与 AIGC 率无法兼顾的学术写作困局
  • Kinetis K22 I2S引脚复用配置全解析与实战指南
  • ncmdump:三步解锁网易云音乐NCM格式,重获音乐播放自由
  • 从游戏寻路到推荐系统:拆解‘搜索’这个AI万金油,你的项目也许正需要它
  • 亲测国内AI搜索获客的真实案例分享
  • i.MX 6接口电气特性与PCB设计实战:从MIPI D-PHY到LVDS的硬件可靠性保障
  • Python房价预测教学实践包:清洗数据+可运行代码+全流程图+详细说明文档
  • 引导孩子坦然面对小失误,不怕犯错才能慢慢变得坚强大方
  • 网盘下载龟速怎么办?LinkSwift直链下载助手让你体验突破性下载速度 [特殊字符]
  • VRoid Studio中文汉化终极指南:5分钟实现界面全面本地化
  • 抖音无水印批量下载终极指南:5分钟快速上手免费工具
  • BGP网络优化实战:除了加快收敛,Peer Group还有这些隐藏用法你知道吗?
  • 告别零散文件!用Python和mbutil把海量地图瓦片打包成mbtiles的保姆级教程
  • 干细胞对人体有啥好处?解析其在再生医学中的潜在价值
  • 5分钟终极指南:用智能脚本永久激活Windows和Office
  • 067、混合精度训练 autocast 源码:前向 FP16到Loss Scale到反向 FP32 的完整机制
  • RAG 知识库增量更新与版本管理:从全量重建到实时生效
  • TypeScript 编程中 Jest 单元测试的类型 Mock 与 Spy 详解
  • 15分钟搭建个人游戏云:Sunshine开源串流服务器完全指南
  • 终极Windows热键侦探:3步快速定位快捷键冲突根源
  • 【鸿蒙原生开发会议随记 Pro】用 NavPathStack 收拢会议页面跳转和返回刷新
  • 3步掌握抖音内容高效采集:从单条视频到批量资源的完整解决方案
  • 大模型+Skills=MCP?深度解析智能体核心组件,告别概念混乱!
  • Python+OpenCV多目标跟踪实战:鼠标框选目标、KCF算法实时跟踪、含完整实验文档与测试视频
  • 网盘下载速度慢?这个开源工具帮你一键获取高速直链下载地址![特殊字符]
  • 别再让标题和摘要拖后腿!SCI/SSCI论文投稿前必看的5个自查清单(附实例)
  • 从用户体验出发:聊聊Vue项目中Loading动画设计的那些‘坑’与最佳实践
  • 论Web服务技术的应用与发展
  • IEEE论文投稿不求人:手把手教你用BibTeX和Mathtype高效管理参考文献与公式
  • 有哪些高效的NOI省选专题题目解题技巧