一文读懂SAM 2图像分割大模型的核心基础知识
写在前面
欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
AIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源:【三年面试五年模拟】AI算法工程师面试秘籍
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
大家好,我是Rocky。
核心导读
SAM 2 这篇论文真正值得读的地方,并不只是“Meta 把 SAM 从图片扩展到了视频”,而是它把视觉分割这件事从一次性的静态预测,推进成了一个带记忆、可交互、可持续修正的视频感知系统。
Rocky 认为,SAM 2 的本质不是“SAM + Tracker”的工程拼接,而是重新定义了一个更大的问题:Promptable Visual Segmentation,简称 PVS。在这个问题里,用户可以在任意视频帧上给点、框或 mask,模型不仅要立刻回应当前帧,还要把这个对象在时间维度上的完整轨迹,也就是论文里的 masklet,稳定地传播到整段视频里。后续用户再补一个点击,系统要能基于已有记忆修正整条 masklet,而不是从头再跑一次分割和跟踪。
这句话听起来像产品交互,背后其实是研究范式变化。SAM 1 解决的是“我点一下,模型在这张图里分出一个对象”;SAM 2 要解决的是“我在时间中指出一个对象,系统要在运动、遮挡、变形、消失、重现中持续理解它”。这就是它比一般视频跟踪模型更重要的地方:它不是只优化一个 benchmark,而是在把分割能力改造成多模态交互系统里的基础操作。
从论文证据看,SAM 2 的主线由三件事组成:
- 任务层:从静态 Segment Anything 扩展到视频里的 Promptable Visual Segmentation,把 SA 和半监督 VOS 都看成 PVS 的特例。
- 模型层:用 streaming memory architecture 让视频逐帧处理,同时通过 memory attention、memory encoder、memory bank 和 object pointer 保存对象上下文。
- 数据层:用 SAM 2 自己进入数据引擎,和人工标注形成闭环,构建 SA-V:50.9K 视频、642.6K masklets、35.5M masks、196 小时视频。
论文给出的核心结果也很清晰:视频分割里,SAM 2 在交互式设置下用超过 3 倍更少的交互达到更好精度;图像分割里,在相近或更高精度下比 SAM 快 6 倍;在 VOS、交互式视频分割和图像 SA 任务上都呈现较强 zero-shot 表现。
但 Rocky 更关心的是另一层:SAM 2 展示了视觉基础模型的一个长期方向,即模型不只是“看见一帧”,而是开始把用户意图、历史预测、对象状态和数据闭环组织成一个可交互的时序系统。这对视频编辑、机器人、自动驾驶、AR/VR、数据标注和未来世界模型都更有跨周期意义。
问题背景:作者到底想解决什么
SAM 1 的成功来自一个非常清晰的抽象:用户用点、框、mask 之类的 prompt 指定对象,模型输出图像里的有效分割。这个抽象非常强,因为它不要求用户提前定义类别,也不要求模型只在固定语义集合里工作。它更像一个视觉版的“指哪分哪”基础能力。
但图像只是现实世界的一帧切片。真正的物体会运动、遮挡、变形、离开画面、重新出现;视频里还会有模糊、低分辨率、镜头运动、光照变化。传统 VOS 或 tracker 可以追踪对象,但它们通常依赖第一帧高质量 mask,或者把交互分割和视频传播拆成两个模块:先用 SAM 在某一帧分出 mask,再交给 XMem、Cutie 之类模型跟踪。这个路线的问题是,一旦中途错了,用户往往要在新帧重新分割,再重新启动跟踪。系统没有真正的“交互记忆”。
SAM 2 重新定义的 PVS 任务,解决的正是这个断裂。
图 2 里的例子很典型。用户一开始用点击选中狗的舌头,SAM 2 把这个对象传播到后续帧。如果模型在中间丢失目标,用户只需要在新的帧上再点一下,模型就能利用已有记忆恢复整条 masklet。相比“图像分割器 + 视频跟踪器”的方案,SAM 2 的关键差异是:后续提示不是一次新的任务启动,而是对同一个时序对象记忆的更新。
这也是这篇论文的第一个本质判断:视频分割的难点不只是空间像素边界,而是对象身份在时间中的连续性。如果一个系统没有记忆,它就很难把“这一帧的一个局部点击”理解成“同一个对象在整段视频中的状态修正”。
核心思路:用 streaming memory 把交互分割推进到视频
SAM 2 的模型结构看起来并不复杂,甚至论文强调它是一个 simple transformer architecture with streaming memory。但简单不等于浅。它真正做对的是,把“视频”拆成了可以实时处理的流式过程,又给这个过程加入对象级记忆。
从机制上看,SAM 2 的一次视频推理可以拆成五步:
- Image encoder对每一帧只编码一次,生成该帧的无条件视觉特征。
- Memory attention把当前帧特征与过去帧的 memory、prompted frames 的 memory、object pointers 做 cross-attention。
- Prompt encoder + mask decoder接收点、框、mask 等提示,输出当前帧 mask、多候选 mask、IoU 估计和 occlusion score。
- Memory encoder把当前预测 mask 与图像特征融合,形成新的 memory。
- Memory bank用 FIFO 队列保存最近帧 memory、提示帧 memory,以及轻量 object pointer。
这里最重要的是 memory attention。它让当前帧的分割不再只依赖当前图像,而是依赖“这个对象过去是什么样、用户在哪些帧提示过、模型曾经如何预测、对象是否可能被遮挡”。当用户在未来帧补充 prompt 时,模型也可以把这个未来信息作为 prompted frame memory 反向帮助其他帧的修正。
Rocky 认为,这个设计的产业含义很强:真正可用的视频 AI,不会只是逐帧调用一个强图像模型,而要有状态、有记忆、有纠错入口。视频编辑、机器人操作、自动驾驶场景理解,本质上都不是单帧识别问题,而是“在时间中持续维护对象状态”的问题。
方法展开:沿着论文原始逻辑拆解
PVS:把 SA 和 VOS 统一成更大的任务
论文在附录里把 Promptable Visual Segmentation 画成一个任务关系图:Segment Anything 是单帧特例,半监督 VOS 是第一帧给 mask 的特例,PVS 则允许用户在任意帧、以任意 prompt 类型定义或修正对象。
这个定义的价值在于,它不是为了论文好看而造一个新名词,而是把三类原本分散的能力放进同一个接口:
| 任务 | 输入 | 输出 | 局限 |
|---|---|---|---|
| Segment Anything | 单张图像上的点、框或 mask | 单帧分割 mask | 没有时间维度 |
| Semi-supervised VOS | 第一帧高质量 mask | 后续帧对象轨迹 | 初始 mask 获取成本高,交互修正弱 |
| PVS | 任意帧上的点、框或 mask,可多轮修正 | 全视频 masklet | 更接近真实交互,但要求模型有记忆 |
PVS 的关键不是“能不能跟踪”,而是“能不能把交互变成连续对象状态更新”。这也是 SAM 2 相比拼接式系统更优雅的地方。
Mask decoder:继承 SAM,但为视频增加可见性与对象指针
SAM 2 的 mask decoder 大体继承 SAM 的设计:prompt token 和 image token 经过 two-way transformer 交互,输出多个候选 mask 和 IoU 估计。不同的是,视频任务要求它额外处理两个问题。
第一,目标对象可能在某些帧不存在。SAM 1 里只要有正点击,通常默认存在一个有效对象;但视频中对象可能被遮挡或离开画面。所以 SAM 2 加入 occlusion prediction head,用来判断当前帧目标是否可见。
第二,视频里对象身份需要跨帧维持。SAM 2 使用 mask decoder 输出 token 作为 object pointer,把它当成轻量对象语义向量存入 memory bank,供后续 memory attention 使用。
这一步很容易被忽略,但它其实是 SAM 2 “从分割器变成时序系统”的关键。空间 memory 保存的是对象在某些帧上的像素与特征状态,object pointer 保存的是更高层的对象身份信息。一个负责“在哪里”,一个负责“是谁”。视频分割如果只靠前者,会更容易在相似目标、遮挡、局部变形里漂移。
训练:不是只训模型,而是在模拟真实交互
SAM 2 的训练不是简单拿视频 masklet 做监督。它模拟用户交互过程:采样 8 帧序列,随机选择最多 2 帧作为 prompt frame,初始 prompt 可以是 ground-truth mask、正点击或 box,然后根据模型预测与 ground truth 的误差采样 corrective clicks。训练目标不是一次性预测某一帧,而是顺序地、交互式地恢复整条 masklet。
论文还做了 16 帧序列的微调,专门针对更困难、更长的视频场景。为了适配 80GB A100 显存,微调时冻结 image encoder,只训练后续模块。这说明 SAM 2 的视频能力不是单靠“大模型吞一切”得到的,而是围绕交互、长时序、遮挡和难例构造了训练过程。
表 12 给出的训练细节可以概括为:
| 训练阶段 | 数据与目标 | 关键设置 | Rocky 解读 |
|---|---|---|---|
| 预训练 | SA-1B 静态图像 | 1024 分辨率、AdamW、bfloat16、focal+dice mask loss、IoU L1 loss | 保留 SAM 式图像分割能力,同时换成更高效的 Hiera 编码器 |
| 全量训练 | SA-1B、SA-V、Internal,以及可选 DAVIS/MOSE/YouTubeVOS | 图像/视频交替采样,视频 8 帧序列,最多 3 个 masklets,模拟 corrective clicks | 把图像能力和视频交互能力放进同一个模型 |
| 16 帧微调 | 最难的高编辑量视频 masklets | 冻结 image encoder,降低学习率,训练 50k iterations | 用难例强化长视频与遮挡恢复 |
真正有价值的地方在于:训练过程不是复刻 benchmark,而是复刻用户如何修正模型。这是很多 AI 产品从 demo 到可用系统必须跨过的一道坎。
数据引擎:SAM 2 真正的护城河不只是模型,而是数据闭环
如果只读模型结构,SAM 2 可能像一个带 memory 的视频分割网络。但读到 Data Engine 部分,才会看到它更完整的系统性。
论文的数据引擎分三阶段:
| 阶段 | 工具链 | 每帧标注时间 | Edited Frames | Clicks per Clicked Frame | 关键变化 |
|---|---|---|---|---|---|
| Phase 1 | SAM only | 37.8s | 100.00% | 4.80 | 每帧都要从头标,质量高但很慢 |
| Phase 2 | SAM + SAM 2 Mask | 7.4s | 23.25% | 3.61 | 先用 mask prompt 传播,效率提升 |
| Phase 3 | SAM 2 | 4.5s | 19.04% | 2.68 | 通过记忆与点击修正,效率最高 |
表 1 里最值得注意的是:Phase 3 相比 Phase 1 快 8.4 倍,同时在 Phase 1 Mask Alignment Score 上并没有明显牺牲质量,整体 alignment 还达到 89.1%。这说明 SAM 2 不只是模型结果更好,它改变了数据生产的成本结构。
另一个关键表是表 2。它控制训练 iterations 不变,只看逐阶段加入数据带来的收益:
| Training data | SA-V val | 9 zero-shot |
|---|---|---|
| VOS + SA-1B | 50.0 | 62.5 |
| + Phase 1 | 53.0 | 66.9 |
| + Phase 2 | 58.8 | 70.9 |
| + Phase 3 | 62.5 | 71.2 |
| + Auto | 63.2 | 71.5 |
这个表说明,数据引擎不是论文包装,而是性能来源。尤其 SA-V val 从 50.0 提升到 63.2,说明模型需要的不只是已有 VOS 数据集,而是更接近“segment anything in videos”的多样对象、部件、遮挡和难例。
SA-V 的规模也非常关键:
| 数据集 | Videos | Duration | Masklets | Masks | Frames | Disappearance Rate |
|---|---|---|---|---|---|---|
| DAVIS 2017 | 0.2K | 0.1 hr | 0.4K | 27.1K | 10.7K | 16.1% |
| YouTube-VOS | 4.5K | 5.6 hr | 8.6K | 197.3K | 123.3K | 13.0% |
| UVO-dense | 1.0K | 0.9 hr | 10.2K | 667.1K | 68.3K | 9.2% |
| BURST | 2.9K | 28.9 hr | 16.1K | 600.2K | 195.7K | 37.7% |
| MOSE | 2.1K | 7.4 hr | 5.2K | 431.7K | 638.8K | 41.5% |
| SA-V Manual | 50.9K | 196.0 hr | 190.9K | 10.0M | 4.2M | 42.5% |
| SA-V Manual+Auto | 50.9K | 196.0 hr | 642.6K | 35.5M | 4.2M | 27.7% |
论文强调 SA-V Manual+Auto 有 35.5M masks,是已有公开视频分割数据集中最大者的 53 倍。这里不能只看“大”,更要看数据分布:SA-V 包含大量小目标、部件、遮挡后重现对象,这些正是传统 VOS 数据集覆盖不足的区域。
图 9 展示了 automatic masklets 的意义。人工标注容易偏向显著对象,而自动 masklet 可以覆盖背景、小物体、局部结构,也可以暴露模型失败案例,再交给人工修正。Rocky 认为这就是基础模型时代的数据飞轮:模型先帮助人降低标注成本,再用人修正模型的失败边界,最后把难例重新喂回模型。
图 10 进一步说明 SA-V 的分布特点:视频来自 47 个国家;超过 88% 的 SA-V masks 归一化面积小于 0.1;数据还记录了采集者的自报 demographic 信息。论文也做了 fairness evaluation。表 13 显示,在 3-click 和 mask prompt 下,不同性别与年龄组的 J&F 差异较小;1-click 下存在更明显差异,论文解释为单击 prompt 的目标歧义会让模型分到人体局部而不是整个人。
| 组别 | 1-click | 3-click | mask |
|---|---|---|---|
| male | 81.9 | 95.1 | 95.9 |
| female | 75.1 | 94.1 | 95.2 |
| 18-26 | 77.2 | 95.0 | 95.7 |
| 26-50 | 76.7 | 94.7 | 95.8 |
| 50+ | 81.4 | 95.1 | 96.2 |
这里 Rocky 的判断是:公平性结论不能过度外推。论文是在特定人群类别、特定数据与 prompt 设置下做的评估,它能说明 SAM 2 在这组实验里没有暴露大规模差异,但不能替代各行业落地时的场景化评估。
图 11 展示了数据引擎里选择、追踪、验证三类 annotator 的分工。对产业落地来说,这张图的价值甚至不低于模型架构图:它告诉我们,基础模型不是自动消灭人工,而是重构人工参与的位置。人不再逐帧画 mask,而是选择难例、纠正失败、验证质量。
实验与证据:结果能支撑到什么程度
交互式视频分割:SAM 2 的强项在少交互高收益
论文先评估 promptable video segmentation,分为 offline 和 online 两种设置。Offline 可以多次遍历视频,选择误差最大的帧交互;online 只前向走一遍视频,遇到低质量帧再补 prompt。两者分别对应更精修和更实时的用户体验。
图 5 的结论很直接:SAM 2 在 9 个 densely annotated zero-shot video datasets 上都优于 SAM+XMem++ 和 SAM+Cutie。论文说 SAM 2 可以用超过 3 倍更少的交互达到更好准确率,这不是小数点级优化,而是交互成本结构变化。
更细粒度的 per-dataset 结果在附录 Figure 12 和 Figure 13 中给出。
Offline 设置下,SAM 2 在 9 个数据集上平均 J&F 为 80.3,SAM+XMem++ 为 71.7,SAM+Cutie 为 74.7。尤其在 VOST、PUMaVOS、LVOSv2 这种更强调变形、部件或长时序的场景里,记忆式统一模型的优势更明显。
Online 设置下,SAM 2 平均 J&F 为 79.8,仍然高于 SAM+XMem++ 的 72.8 和 SAM+Cutie 的 74.0。这里最有产品意义的是 online,因为它更接近真实视频编辑、机器人监控、流式交互里的使用状态:系统不能等你离线反复扫完整段视频,而要在前向处理时持续修正。
半监督 VOS:即使在传统任务里也明显强
为了和传统视频分割方法对齐,论文也做了半监督 VOS 评估,即只在第一帧给 click、box 或 ground-truth mask,然后看后续视频分割效果。
| Method | 1-click | 3-click | 5-click | bounding box | ground-truth mask |
|---|---|---|---|---|---|
| SAM+XMem++ | 56.9 | 68.4 | 70.6 | 67.6 | 72.7 |
| SAM+Cutie | 56.7 | 70.1 | 72.2 | 69.4 | 74.1 |
| SAM 2 | 64.7 | 75.3 | 77.6 | 74.4 | 79.3 |
表 4 的信息量很大。SAM 2 不仅在 click prompt 下更强,在 ground-truth mask 这种最适合传统 VOS 方法的设置下也达到 79.3,高于 SAM+Cutie 的 74.1。这说明 SAM 2 不是牺牲传统 VOS 换交互能力,而是在更一般的 PVS 框架下兼容了 VOS。
图 14 把 17 个视频数据集按不同 prompt 类型展开。Rocky 认为这里最该看的不是某个单点最高分,而是曲线形态:随着 prompt 从 1-click 到 5-click、box、mask 变强,SAM 2 的优势保持稳定。这说明它的收益不只来自某种 prompt trick,而是来自统一的对象记忆机制。
图像分割:SAM 2 不是视频专用模型,而是更高效的统一模型
SAM 2 在图像任务上也没有退化。论文在 37 个 zero-shot datasets 上评估 Segment Anything 任务,表 5 给出主结果:
| Model | Data | SA-23 All | SA-23 Image | SA-23 Video | 14 new Video | FPS |
|---|---|---|---|---|---|---|
| SAM | SA-1B | 58.1 (81.3) | 60.8 (82.1) | 54.5 (80.3) | 59.1 (83.4) | 21.7 |
| SAM 2 | SA-1B | 58.9 (81.7) | 60.8 (82.1) | 56.4 (81.2) | 56.6 (83.7) | 130.1 |
| SAM 2 | our mix | 61.9 (83.5) | 63.3 (83.8) | 60.1 (83.2) | 69.6 (85.8) | 130.1 |
括号里是 5-click mIoU,前面的数值是 1-click mIoU。单看 SA-1B 训练,SAM 2 已经在 1-click 上略高于 SAM,同时 FPS 从 21.7 到 130.1,约 6 倍速度提升。加入图像+视频混合数据后,SA-23 All 提升到 61.9,14 new Video 提升到 69.6。
图 15 说明,SAM 2 的图像收益尤其集中在来自视频分布的数据上,比如医学、运动、长视频、开放世界对象。这不意外:SAM 2 的训练让模型见过更多视频帧分布、模糊、遮挡和小目标,它反过来提升了模型在“像视频帧一样的图片”上的表现。
SOTA VOS:强 benchmark 不是终点,但能证明底座够硬
论文也和已有 VOS 方法比较。表 6 的主结果如下:
| Method | MOSE val | DAVIS17 val | LVOS val | SA-V val | SA-V test | YTVOS19 val |
|---|---|---|---|---|---|---|
| XMem | 59.6 | 86.0 | - | 60.1 | 62.3 | 85.6 |
| DEVA | 66.0 | 87.0 | 55.9 | 55.4 | 56.2 | 85.4 |
| Cutie-base+ | 71.7 | 88.1 | - | 61.3 | 62.8 | 87.5 |
| SAM 2 (Hiera-B+) | 76.6 | 90.2 | 78.0 | 76.8 | 77.0 | 88.6 |
| SAM 2 (Hiera-L) | 77.9 | 90.7 | 78.0 | 77.9 | 78.4 | 89.3 |
SAM 2 在 SA-V val/test 上相对 prior work 的差距尤其大。这个结果要谨慎看:SA-V 是论文作者构建的数据集,天然更贴近 SAM 2 的目标任务。但它仍然说明一件事:旧 VOS benchmark 上的强模型,不一定能覆盖“任意对象、任意部件、复杂遮挡、交互修正”的开放视频分割场景。
图 16 很适合解释 SAM 2 的优势。第一帧的 mask prompt 只覆盖人的衬衫,baseline 会扩散到整个人,而 SAM 2 更能把 masklet 限制在目标部件上。这个例子说明,SAM 2 的目标不是“跟住一个大物体”,而是更细粒度地维持用户指定的 segment。
图 17 列出的视频 benchmark 覆盖 UVO、Ego-Exo4D、LVOSv2、EndoVis、Virtual KITTI、ESD、VISOR、PUMaVOS 等多种场景。它提醒我们,SAM 2 的难点不是某个单一领域,而是模型要跨开放世界、长视频、医学、驾驶、第一视角、合成数据、细胞视频等分布稳定工作。
消融实验:哪些设计真正重要
SAM 2 的消融实验可以分成三类:数据、模型容量、memory 设计。
数据组合:数据引擎数据带来跨域收益
表 7 对不同训练数据组合做了比较。最值得看的是 row 1 和 row 11:只用已有 VOS 数据时,9 zero-shot 为 59.7;加入 Internal 与 SA-V 等数据引擎数据后,9 zero-shot 到 71.8,提升 12.1 个点。
| 训练组合 | SA-V val | Internal-test | MOSE dev | 9 zero-shot | SA-23 |
|---|---|---|---|---|---|
| VOS only | 48.1 | 60.2 | 76.9 | 59.7 | 45.4 |
| SA-V only | 63.0 | 72.6 | 72.8 | 69.7 | 53.0 |
| SA-V + SA-1B | 62.9 | 73.2 | 73.6 | 69.7 | 58.6 |
| VOS + Internal + SA-V | 61.8 | 74.4 | 78.5 | 71.8 | 55.7 |
| VOS + Internal + SA-V + SA-1B | 63.1 | 73.7 | 79.0 | 71.6 | 58.9 |
这个结果非常符合基础模型经验:旧 benchmark 数据能让模型在旧 benchmark 上漂亮,但开放能力需要更广、更难、更接近真实交互的数据。
数据规模:SA-V 呈现稳定 scaling
图 6 显示,随着 SA-V masklets 数量增加,SA-V val、9 zero-shot、MOSE dev 上的 J&F 都呈现较稳定的增长趋势。Rocky 认为这张图的意义是:SAM 2 的性能不是偶然由某个技巧堆出来的,而是有数据规模支撑。对创业公司和研究团队来说,这也是一个现实提醒:视觉基础能力的壁垒不只在模型代码,更在能不能构建持续产出难例的数据系统。
数据质量:难例比随机样本更有价值,但全量最好
表 8 比较了随机 50K masklets、最常被编辑的 50K masklets,以及完整 190K SA-V:
| Setting | SA-V val | Internal-test | MOSE dev | 9 zero-shot | SA-23 |
|---|---|---|---|---|---|
| SA-1B + SA-V 50k random | 63.7 | 70.3 | 72.3 | 68.7 | 59.1 |
| SA-1B + SA-V 50k most edited | 66.2 | 73.0 | 72.5 | 69.2 | 58.6 |
| SA-1B + SA-V | 69.9 | 73.8 | 73.9 | 70.8 | 59.8 |
“most edited” 样本更强,说明被人工修正次数高的样本确实是难例信号。但全量仍最好,说明高质量难例和覆盖广度都不可替代。
模型结构:默认配置是精度、速度与显存的折中
表 9 的容量消融显示:
| 维度 | 论文结论 | Rocky 解读 |
|---|---|---|
| Resolution | 1024 相比 512/768 带来更好图像和视频效果,但速度下降 | 高分辨率对边界和小目标重要,适合最终模型 |
| #Frames | 8 帧比 4 帧明显更好,10 帧收益有限 | 长上下文有收益,但训练和推理成本存在边界 |
| #Memories | 6 个 memory 是速度与效果折中 | memory 多不是越多越好,关键是保留有用上下文 |
| Memory channels | 64 维 memory 基本够用 | 说明 memory 更像对象状态摘要,而不是完整重编码 |
| Image encoder | B+ 是默认折中,L 精度更高但更慢 | 产品部署会偏 B+,研究和高精任务可用 L |
表 10 显示,SAM 2 默认使用 memory attention 里的 2D-RoPE,同时移除 image encoder 的 RPB,以便启用 FlashAttention-2 获得速度收益。表 11 显示 object pointers 对 SA-V val 和 LVOSv2 这类更难视频有明显帮助,而 recurrent GRU memory 并不是必要组件。
| 消融 | 关键结果 | 判断 |
|---|---|---|
| 2D-RoPE + no RPB | 在保证性能的同时获得速度优势 | 简化位置编码,换取高效 attention kernel |
| Object pointers | SA-V val 从 64.5 提升到 68.3,LVOSv2 从 67.0 到 71.6 | 对象级语义指针能帮助长时序身份保持 |
| GRU memory | 相比直接 memory bank 没有整体优势 | SAM 2 更偏 transformer memory,而不是 RNN 状态机 |
这里有一个很典型的工程审美:不是所有“更复杂”的时序模块都值得加入。SAM 2 的设计偏向可扩展、可并行、能吃现代 attention kernel 红利的结构,而不是为了时序感强行加 recurrent 组件。
这篇工作的边界与可复现性
SAM 2 的边界,论文写得比较坦诚。
第一,它会在 shot changes、拥挤场景、长时间遮挡、很长视频、细而快的结构、外观相似的邻近物体上失败。用户可以在任意帧补 prompt 来修复很多错误,但这意味着系统仍然依赖 human-in-the-loop。
第二,多对象处理仍然是 per-object independent。SAM 2 会共享每帧 image encoder 特征,但每个对象有独立 memory bank 和 mask decoder 流程,没有显式对象间通信。这个设计简单、稳,但在多目标遮挡、相互接触、实例关系建模上可能不是最终形态。
第三,数据引擎依然需要人工选择难例、修正 masklet、验证质量。自动 masklet 能提高覆盖率,但“自动生成 + 自动验证 + 自动修复”还没有完全闭环。
第四,可复现性比一般商业论文更好,但仍然不是零成本。论文释放了模型、训练代码、demo 代码和 SA-V 数据集;同时模型卡披露 released SAM 2 使用 256 张 A100 训练 108 小时,估计能耗 12165.12 kWh。这对学术复现和创业团队微调都是现实门槛。
| 资源/信息 | 论文披露 |
|---|---|
| 模型与代码 | SAM 2 checkpoints、training code、demo code,以 permissive licenses 发布 |
| SA-V 数据集 | CC BY 4.0 |
| 训练算力 | released SAM 2 使用 256 A100 GPUs 训练 108 小时 |
| 模型定位 | research use case,promptable video and image segmentation |
| 数据风险 | 建议新场景使用者做自己的 fairness evaluation |
Rocky 的判断是:SAM 2 的复现难点不在代码能不能跑,而在是否能复刻“数据引擎 + 标注协议 + 难例闭环 + 大规模训练”的完整系统。工具开源降低了使用门槛,但真正的护城河仍然在数据、流程和产品场景。
如果继续研究或落地,应该关注什么
1. 从“对象记忆”走向“场景记忆”
SAM 2 的 memory 是围绕单个对象组织的。未来更强的视频系统,可能需要同时维护对象、关系、事件和场景状态。比如机器人拿杯子,不只要知道杯子 mask,还要知道杯子和手、桌面、障碍物的关系。
2. 从 human-in-the-loop 走向 verifier-in-the-loop
SAM 2 数据引擎仍需要人工验证。下一步真正有商业价值的是自动 verifier:模型不仅生成 masklet,还能判断哪里不稳定、哪里需要人修、哪里可以自动加入训练集。数据闭环的自动化程度,会决定成本曲线。
3. 从分割工具走向视频编辑基础设施
对视频编辑产品来说,SAM 2 不是一个单独按钮,而是抠像、跟踪、局部替换、风格化、物体移除、视频重绘的基础层。未来很多 AIGC 视频工具的用户体验,都会依赖这种“对象可被持续选中和修正”的能力。
4. 从视觉基础模型走向世界模型组件
世界模型不只是生成未来帧,还要持续绑定对象身份、状态和可操作边界。SAM 2 这种可提示、可记忆、可交互的视频分割能力,可能成为世界模型里的对象 grounding 层。它不等于世界模型,但它解决了世界模型落地里非常基础的一环:什么是当前场景里可被操作、可被追踪、可被引用的对象。
5. 从 benchmark 精度走向用户交互成本
论文里最有产品味的指标不是单纯 J&F,而是更少交互达到更高质量。AI 产品的真实成本往往不是模型推理一次多少钱,而是用户需要返工几次、等待多久、是否能在错误发生时自然修正。SAM 2 把这个问题显式纳入评估,是很好的信号。
术语与概念速查
| 术语 | 含义 | 为什么重要 |
|---|---|---|
| SAM | Segment Anything Model,静态图像 promptable segmentation 模型 | SAM 2 的起点 |
| SAM 2 | 面向图像和视频的统一 promptable segmentation 模型 | 本文主角 |
| PVS | Promptable Visual Segmentation | 把图像分割和视频分割统一起来的新任务 |
| Masklet | 一个对象在整段视频中的时空 mask 序列 | 视频分割的核心输出 |
| Streaming memory | 流式处理视频帧,并保存对象历史状态的架构 | 实时视频能力的关键 |
| Memory attention | 当前帧特征对历史 memory 和 object pointer 做 attention | 让当前预测利用过去信息 |
| Memory encoder | 把预测 mask 和图像特征融合成 memory | 把当前结果写入记忆 |
| Memory bank | 保存最近帧和提示帧 memory 的队列 | 控制上下文、速度和存储 |
| Object pointer | 来自 mask decoder token 的轻量对象语义向量 | 帮助跨帧维持对象身份 |
| SA-V | Segment Anything Video dataset | SAM 2 的关键数据资产 |
| J&F | 视频分割常用指标,综合 region similarity J 和 contour accuracy F | 衡量视频 masklet 质量 |
| mIoU | mean Intersection over Union | 图像分割常用指标 |
表格证据索引
为了让文章保持可读性,上文保留了关键表格的 Markdown 版本;其余附录大表以证据索引方式归纳。完整数值应以论文原表为准。
| 表号 | 主题 | 结论 |
|---|---|---|
| Table 1 | 数据引擎阶段对比 | Phase 3 使用 SAM 2 后,每帧标注从 37.8s 降到 4.5s,约 8.4x 提速 |
| Table 2 | 各阶段数据加入后的性能 | 从 VOS+SA-1B 到 +Auto,SA-V val 从 50.0 到 63.2 |
| Table 3 | SA-V 与已有 VOS 数据集规模比较 | SA-V Manual+Auto 有 642.6K masklets、35.5M masks |
| Table 4 | 17 视频数据集不同 prompt 的 zero-shot | SAM 2 在 1/3/5-click、box、mask 全部优于两个拼接式 baseline |
| Table 5 | 图像 SA 任务主结果 | SAM 2 在相近或更高精度下比 SAM 快约 6x |
| Table 6 | 半监督 VOS 主比较 | SAM 2 在 MOSE、DAVIS、LVOS、SA-V、YTVOS 上整体领先 |
| Table 7 | 数据组合消融 | 数据引擎数据带来 9 zero-shot 的显著提升 |
| Table 8 | 数据质量消融 | most-edited 难例优于随机样本,但全量 SA-V 最好 |
| Table 9 | 模型容量消融 | 1024 分辨率、8 帧、B+ encoder 是默认折中 |
| Table 10 | 位置编码消融 | 2D-RoPE + 去 RPB 兼顾性能和 FlashAttention-2 加速 |
| Table 11 | memory 设计消融 | object pointer 对 SA-V/LVOSv2 有帮助,GRU memory 整体不必要 |
| Table 12 | 训练超参数 | 披露预训练、全量训练、增强、loss、batch 等配置 |
| Table 13 | fairness evaluation | 3-click 和 mask prompt 下 demographic gap 较小 |
| Table 14 | DAVIS interactive benchmark | SAM 2 click 输入下优于 CiVOS,J&F@60s 达 0.90 |
| Table 15 | 37 图像数据集详细 zero-shot | SAM 2 Hiera-B+/L 与 SAM、HQ-SAM 的细分比较 |
| Table 16 | 17 个视频 zero-shot 数据集说明 | 覆盖医疗、驾驶、开放世界、长视频、显微、第一视角等分布 |
| Table 17 | 更完整 VOS SOTA 比较 | SAM 2 在 SA-V、LVOS、LVOSv2、MOSE、DAVIS、YTVOS 多指标领先 |
| Table 18 | Model card | 披露 intended use、license、metrics、training data、compute impact 与 caveats |
拓展思考:这篇论文的跨周期价值
Rocky 认为,SAM 2 的长期价值不在于它某个榜单多高,而在于它把三个东西合在了一起:任务抽象、状态化模型、数据闭环。
很多 AI 技术的短期热度来自 demo,长期价值来自它能不能进入基础工作流。SAM 2 很明显属于后者。它让“选中视频中的任意对象”这件事变得更接近基础设施能力:可以被视频编辑调用,可以被机器人感知调用,可以被自动标注调用,也可以被后续生成式视频模型调用。
当然,它还不是终点。它对多对象关系、复杂长视频、自动验证、真实商业场景的鲁棒性,都还有明显空间。但技术周期从来不会因为一个模型还不完美就停止前进。更重要的问题是:它有没有把问题推进到一个更高层的抽象。
SAM 2 做到了。
SAM 1 把图像分割从类别预测变成 promptable interface。SAM 2 把这个 interface 推进到时间维度,并用 memory 让用户意图可以跨帧延续。这个方向的本质,是视觉模型从“识别内容”走向“维护对象状态”。
对 AI 算法工程师来说,SAM 2 值得学习的是如何把模型结构、训练模拟、数据引擎和交互评估设计成一套系统。
对产品经理来说,SAM 2 值得学习的是:真正好的 AI 交互不是一次生成正确,而是允许用户用最低成本纠错,并让系统记住这次纠错。
对创业者和投资人来说,SAM 2 的启发更直接:单点工具红利会被大模型吸收,但围绕场景数据、交互闭环、质量验证和工作流嵌入形成的系统能力,仍然有跨周期价值。
工具会迭代,模型会换代,工作流会被重构。真正能留下来的,是把技术能力翻译成可持续生产力的系统。SAM 2 之所以值得认真读,正是因为它不是只展示了一个更强的分割模型,而是展示了视频 AI 基础设施该如何被构建。
推荐阅读
1. 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2025年可以说是AI Agent全面落地应用的元年,因此Rocky在持续撰写对AI Agent的全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
和Rocky一起学习探究扩散模型的本质原理与和核心基础知识,同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解:深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
3. 深入浅出完整解析FLUX.2、Seedream(即梦)、Z-image、GLM-Image核心基础知识
https://zhuanlan.zhihu.com/p/1975174691049189562
4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
5. 深入浅出完整解析DeepSeek系列核心基础知识
深入浅出完整解析DeepSeek系列核心基础知识
6、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识
7、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识
8、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
9、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:深入浅出完整解析Stable Diffusion(SD)核心基础知识
10、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:深入浅出完整解析ControlNet核心基础知识
11、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
12、深入浅出完整解析AIGC时代Transformer核心基础知识
在AIGC时代中,Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向,成为AI技术架构大一统与多模态整合的关键核心基座,大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析:
Transformer文章地址:深入浅出完整解析AIGC时代Transformer核心基础知识
13、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:手把手教你成为AIGC算法工程师,斩获AIGC算法offer!
14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:深入浅出完整解析主流AI绘画框架(ComfyUI、Stable Diffusion WebUI、Fooocus)核心基础知识
16、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
17. AI算法工程师的《三年面试五年模拟》求职秘籍
AIGC时代的算法工程师的求职面试秘籍(持续更新中)
18. AIGC产业的深度思考与分析
2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示,自从1980年首次看到图形用户界面(graphical user interface)以来,以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。
Rocky也认为,AIGC及其生态,会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期,未来随着AIGC的全面落地和深度商用,会深刻改变我们的工作、生活、学习以及交流方式,各行各业都将被重新定义,过程会非常有趣。
那么,在此基础上,我们该如何更好的审视AIGC的未来?我们该如何更好地拥抱AIGC引领的革新?Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点,希望能帮助各位读者对AIGC有一个全面的了解:
深入浅出全面解析AIGC时代核心价值与发展趋势(2025年版)
