18 CLIP 论文精读:ViT 如何走向图文多模态?(Learning Transferable Visual Models From Natural Language Supervision)
在前几篇文章中,我们围绕 ViT 的自监督预训练路线进行了连续梳理。
MAE 的核心思想是:遮住大部分图像 patch,让模型重建被遮挡区域的像素。
BEiT 的核心思想是:先用视觉 tokenizer 把图像转换成离散 visual token,再让模型预测被 mask 位置对应的 visual token。
DINO 的核心思想是:不使用人工标签,也不重建图像,而是通过 teacher-student 自蒸馏,让 ViT 学到稳定的语义表示。
这些方法虽然形式不同,但它们本质上都在回答同一个问题:
没有人工类别标签时,ViT 如何从图像本身学习视觉表示?
而 CLIP 开始回答另一个更大的问题:
能不能直接利用互联网上大量的图像和文本描述,让模型学会把图像和语言对齐
这意味着,ViT 不再只是一个图像分类 backbone,而开始进入 图文多模态预训练 阶段。
CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision,由 Alec Radford 等人提出,发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练,通过“判断哪张图和哪句话匹配”的对比学习任务,学习可迁移的视觉表示,并支持 zero-shot 图像分类。
