当前位置：首页 > news >正文

18 CLIP 论文精读：ViT 如何走向图文多模态？（Learning Transferable Visual Models From Natural Language Supervision）

news 2026/6/1 5:21:12

在前几篇文章中，我们围绕 ViT 的自监督预训练路线进行了连续梳理。

MAE 的核心思想是：遮住大部分图像 patch，让模型重建被遮挡区域的像素。

BEiT 的核心思想是：先用视觉 tokenizer 把图像转换成离散 visual token，再让模型预测被 mask 位置对应的 visual token。

DINO 的核心思想是：不使用人工标签，也不重建图像，而是通过 teacher-student 自蒸馏，让 ViT 学到稳定的语义表示。

这些方法虽然形式不同，但它们本质上都在回答同一个问题：

没有人工类别标签时，ViT 如何从图像本身学习视觉表示？

而 CLIP 开始回答另一个更大的问题：

能不能直接利用互联网上大量的图像和文本描述，让模型学会把图像和语言对齐

这意味着，ViT 不再只是一个图像分类 backbone，而开始进入图文多模态预训练阶段。

CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision，由 Alec Radford 等人提出，发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练，通过“判断哪张图和哪句话匹配”的对比学习任务，学习可迁移的视觉表示，并支持 zero-shot 图像分类。

http://www.cnnetsun.cn/news/2511275.html

相关文章：

OBS Source Record插件技术解析：基于滤镜架构的多源独立录制解决方案

如何用STC8单片机实现30W无线充电：恒功率控制与超级电容储能实战指南

ComfyUI图像智能标注终极指南：JoyCaptionAlpha Two插件实战全解析

My-TODOs：5分钟快速上手的免费跨平台桌面待办清单终极指南

电动执行器到货验收标准，行业内行人都这么查

G-Helper革命性指南：解锁华硕笔记本性能的轻量级控制神器

如何快速解密RPG Maker游戏资源：新手完整指南

AutoLegalityMod：如何在15分钟内创建完全合法的宝可梦数据

免费QQ空间备份工具：GetQzonehistory完整指南

超厉害！AI写教材，低查重且内容连贯，快速产出专业教材！

AI教材编写必备：低查重AI工具，助力快速完成教材创作！

CANN 调试与错误处理：问题排查指南与实战技巧

Sunshine游戏串流服务器：10分钟搭建跨平台个人游戏云终极指南

终极指南：如何用Lyciumaker轻松制作专业级三国杀卡牌

终极指南：如何实现《塞尔达传说：旷野之息》Switch与WiiU存档的无缝迁移

惠普OMEN游戏本终极性能优化神器：OmenSuperHub完整使用指南

HumanNet：一百万年人类视频，给机器人一本最厚的“动手教科书”

ESP32原生USB开发的终极解决方案：EspTinyUSB完整指南

CX100 音频延迟测试仪器

为什么医疗质控特别适合 AI 先落地？

终极指南：如何在Windows上免iTunes安装苹果USB和网络共享驱动

DAG方法与自变量筛选【9天实用统计学公益训练营Day3-3】

3个技巧让英雄联盟战绩查询工具Seraphine助你排位胜率飙升15%

3个步骤掌握Python AUTOSAR ARXML生成：告别复杂商业工具

Nexus Mods App 终极指南：5分钟掌握游戏模组管理的完整解决方案

Joy-Con Toolkit深度解析：开源手柄控制与校准技术实现方案

Kali与Windows靶机通信故障排查：虚拟机网络配置四层诊断法

Steam Deck多系统引导终极指南：3步完成图形化配置

PUBG罗技鼠标宏压枪脚本：新手也能轻松掌握完美压枪技巧

如何在3分钟内为Unity游戏配置实时AI翻译：XUnity.AutoTranslator终极指南