当前位置: 首页 > news >正文

18 CLIP 论文精读:ViT 如何走向图文多模态?(Learning Transferable Visual Models From Natural Language Supervision)

在前几篇文章中,我们围绕 ViT 的自监督预训练路线进行了连续梳理。

MAE 的核心思想是:遮住大部分图像 patch,让模型重建被遮挡区域的像素。

BEiT 的核心思想是:先用视觉 tokenizer 把图像转换成离散 visual token,再让模型预测被 mask 位置对应的 visual token。

DINO 的核心思想是:不使用人工标签,也不重建图像,而是通过 teacher-student 自蒸馏,让 ViT 学到稳定的语义表示。

这些方法虽然形式不同,但它们本质上都在回答同一个问题:

没有人工类别标签时,ViT 如何从图像本身学习视觉表示?

而 CLIP 开始回答另一个更大的问题:

能不能直接利用互联网上大量的图像和文本描述,让模型学会把图像和语言对齐

这意味着,ViT 不再只是一个图像分类 backbone,而开始进入 图文多模态预训练 阶段。

CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision,由 Alec Radford 等人提出,发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练,通过“判断哪张图和哪句话匹配”的对比学习任务,学习可迁移的视觉表示,并支持 zero-shot 图像分类。

http://www.cnnetsun.cn/news/2511275.html

相关文章:

  • OBS Source Record插件技术解析:基于滤镜架构的多源独立录制解决方案
  • 如何用STC8单片机实现30W无线充电:恒功率控制与超级电容储能实战指南
  • ComfyUI图像智能标注终极指南:JoyCaptionAlpha Two插件实战全解析
  • My-TODOs:5分钟快速上手的免费跨平台桌面待办清单终极指南
  • 电动执行器到货验收标准,行业内行人都这么查
  • G-Helper革命性指南:解锁华硕笔记本性能的轻量级控制神器
  • 如何快速解密RPG Maker游戏资源:新手完整指南
  • AutoLegalityMod:如何在15分钟内创建完全合法的宝可梦数据
  • 免费QQ空间备份工具:GetQzonehistory完整指南
  • 超厉害!AI写教材,低查重且内容连贯,快速产出专业教材!
  • AI教材编写必备:低查重AI工具,助力快速完成教材创作!
  • CANN 调试与错误处理:问题排查指南与实战技巧
  • Sunshine游戏串流服务器:10分钟搭建跨平台个人游戏云终极指南
  • 终极指南:如何用Lyciumaker轻松制作专业级三国杀卡牌
  • 终极指南:如何实现《塞尔达传说:旷野之息》Switch与WiiU存档的无缝迁移
  • 惠普OMEN游戏本终极性能优化神器:OmenSuperHub完整使用指南
  • HumanNet:一百万年人类视频,给机器人一本最厚的“动手教科书”
  • ESP32原生USB开发的终极解决方案:EspTinyUSB完整指南
  • CX100 音频延迟测试仪器
  • 为什么医疗质控特别适合 AI 先落地?
  • 终极指南:如何在Windows上免iTunes安装苹果USB和网络共享驱动
  • DAG方法与自变量筛选 【9天实用统计学公益训练营Day3-3】
  • 3个技巧让英雄联盟战绩查询工具Seraphine助你排位胜率飙升15%
  • 3个步骤掌握Python AUTOSAR ARXML生成:告别复杂商业工具
  • Nexus Mods App 终极指南:5分钟掌握游戏模组管理的完整解决方案
  • Joy-Con Toolkit深度解析:开源手柄控制与校准技术实现方案
  • Kali与Windows靶机通信故障排查:虚拟机网络配置四层诊断法
  • Steam Deck多系统引导终极指南:3步完成图形化配置
  • PUBG罗技鼠标宏压枪脚本:新手也能轻松掌握完美压枪技巧
  • 如何在3分钟内为Unity游戏配置实时AI翻译:XUnity.AutoTranslator终极指南