当前位置: 首页 > news >正文

一文解读:多模态大语言模型综述,建议收藏!

多模态大语言模型综述,这篇文章就是对这篇综述论文的解读:

引入

多模态模型主要有两种范式,一种是Discriminative(判别式),另一种是Generative(生成式)。其中,判别式的代表就是CLIP,生成式的包括OFA,还有咱们这次重点要讲的——多模态大语言模型(MLLM)。

Discriminative(判别式)

CLIP是OpenAI的经典作品,它用对比学习的方法,把视觉信息(比如图片)和文本信息(比如文字描述)整合到同一个特征空间里,这样对后续做各种多模态相关的任务都很有帮助。

之所以说它是判别式范式,是因为CLIP用的是对比学习框架,训练的时候会对比正样本(匹配的图片和文本对)和负样本(不匹配的图片和文本对)。

这种学习方式的核心,就是锻炼模型区分不同类别的能力,具体来说就是分清哪些图片和文本是匹配的、哪些不匹配。而且,就算没见过某个类别的标签,它也能完成分类任务,就像下面这张图展示的那样:

Generative(生成式)

OFA模型,也就是One-For-All模型,是阿里巴巴达摩院提出来的一款多模态预训练模型。

它属于生成式方案,用的是统一的Transformer encoder-decoder架构来做预训练和微调,不用针对不同的任务专门设计特定的模型层。

简单说,OFA会把各种不同的任务,都转换成序列到序列(Seq2Seq)的形式,通过生成的方式进行预训练和微调,这样模型就能同时学习多种任务了。

随着大模型的发展,生成式方案现在已经成了研究的热点。其中,多模态大语言模型凭借着强大的多模态感知和理解能力,在一些需要结合多种模态信息进行推理的任务中,表现得特别出色,也能给用户带来更自然、更方便的交互体验。

接下来,咱们就全面解读一下多模态大语言模型的几个重要方面。

多模态大语言模型

一般来说,多模态大语言模型的网络架构,主要包含三个部分:一个预训练的模态编码器、一个预训练的LLM(大语言模型),还有一个模态接口Connector。当然,也可以在LLM后面再加上一个生成器,用来生成不同模态的结果。

模态编码器

模态编码器其实就是一种预训练的模态对齐模型,它的作用很简单,就是提前把不同模态的输入数据,和LLM的输入数据调整到同一维度、相互匹配。

根据输入数据的不同类型,模态编码器也分种类,比如处理图片的图片编码器、处理声音的音频编码器,还有处理视频的视频编码器。

举个例子,常见的图片编码器有这些:

很多研究都表明,输入更高分辨率的图片,能让模型的性能有明显提升。至于怎么提升输入图片的分辨率,目前主要有两种思路:

direct scaling way(直接缩放法)

就是直接输入分辨率比较高的图片,这就需要要么微调一个能接收高分辨率图片的编码器,要么直接换一个本身就支持高分辨率的编码器。

比如CogAgent,它就用了双编码器的结构,一个接收低分辨率图片,一个接收高分辨率图片,然后通过cross-attention,把高分辨率的特征嵌入到低分辨率的分支里。

patch-division methods(补丁分割法)

就是把高分辨率的图片切成多个小补丁(patches),这些小补丁都能输入到低分辨率编码器里。

之后,这些小补丁和这张高分辨率图片对应的低分辨率版本,一起输入到图片编码器中,这样就能分别捕捉到图片的局部特征和全局特征了。

除了图片编码器,还有其他类型的模态编码器,比如CLAP是用来对语音进行编码的,ImageBind则能对图片、文本、语音、深度图、热图、IMU数据这些多种模态的数据进行编码。

大语言模型

大语言模型是一种预训练的大模型,这个大家应该都比较熟悉了:

模态接口

模态接口其实就是一个可以学习的网络,它主要有三种形式:projection-based、query-based和fusion-based。前两种属于token级别的混合,最后一种属于特征级别的混合。

简单解释一下:projection-based方法,就是通过MLP把其他模态的数据特征,映射到文本特征空间里;

query-based方法,就是通过查询(query)的方式,找到输入模态数据对应的文本特征;fusion-based方法,则是通过多头注意力机制,把输入中的文本特征和其他模态的特征混合在一起。

前两种方法得到的文本特征,也需要和输入中的文本特征结合起来,不过和fusion-based的结合方式不一样,前两种一般是直接拼接(concat)在一起。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.cnnetsun.cn/news/2730786.html

相关文章:

  • OpenCV实战:基于SIFT特征匹配的实时物体检测与定位
  • GitHub爆火装机工具Ventoy,一个U盘搞定所有系统安装
  • 海外直播拍卖订单履约难点:跨境链路协同与流程优化
  • Alphabet计划募集800亿美元为AI基础设施扩张提供资金
  • C# 在 VisionPro 机器视觉中的图形绘制实战详解
  • Agent智能体开发框架:工业数据AI处理与数据知识治理的工
  • AI产品落地:从大模型幻觉治理到商业回本指标设计
  • 好靶场题目
  • 旗舰模型 vs 轻量模型,性能与性价比全面对比
  • AI报告审核成检测机构新标配,IACheck助力果蔬检测报告一次合格率大幅提升
  • 露天矿车辆管理平台物联网方案
  • KDiff3终极指南:如何快速掌握免费文件比较与合并工具
  • 别再一报显存不足就调小batch size!Windows笔记本上这个隐藏设置能让你的模型先跑起来
  • 开源AUV框架MVP:低成本模块化水下机器人开发方案
  • 终极指南:免费解锁QQ音乐加密文件,qmcdump解码工具完整使用教程
  • 如何通过ComfyUI插件生态系统构建专业级AI图像工作流
  • 通达信缠论插件:3分钟实现自动画中枢的终极解决方案
  • 旧蓝牙音箱改造无线充电器:DIY桌面娱乐中心全攻略
  • 80美元DIY PC VR头显:Arduino+MPU6050实现头部追踪与3D游戏体验
  • 游戏化科研:用众包游戏解决蛋白质折叠等科学难题
  • 如何用WinUtil一键搞定Windows系统优化和软件安装
  • Deep-Detect:基于注意力机制的高光谱图像分类混合网络设计与实践
  • PUBG-Logitech罗技鼠标宏自动压枪:从入门到精通的完整实战指南
  • 别再只盯着DDPM了!用PyTorch从零实现SDE视角下的扩散模型(附完整代码)
  • LangSAM项目提速实战:用MobileSAM替换SAM,5分钟搞定5-10倍性能提升
  • WarcraftHelper完全指南:魔兽争霸3优化神器让你的游戏体验焕然一新
  • 避坑指南:在Linux服务器用Ollama跑7B模型,为什么我的CPU快“烧”了?
  • 基于ESP8266与Blynk的智能抽屉锁:从硬件连接到软件配置全解析
  • 基于GreenPAK的动态电流补偿智能门锁电机驱动方案
  • 终极指南:Fillinger智能填充插件 - 3分钟掌握Illustrator批量填充技巧