一文解读:多模态大语言模型综述,建议收藏!
多模态大语言模型综述,这篇文章就是对这篇综述论文的解读:
引入
多模态模型主要有两种范式,一种是Discriminative(判别式),另一种是Generative(生成式)。其中,判别式的代表就是CLIP,生成式的包括OFA,还有咱们这次重点要讲的——多模态大语言模型(MLLM)。
Discriminative(判别式)
CLIP是OpenAI的经典作品,它用对比学习的方法,把视觉信息(比如图片)和文本信息(比如文字描述)整合到同一个特征空间里,这样对后续做各种多模态相关的任务都很有帮助。
之所以说它是判别式范式,是因为CLIP用的是对比学习框架,训练的时候会对比正样本(匹配的图片和文本对)和负样本(不匹配的图片和文本对)。
这种学习方式的核心,就是锻炼模型区分不同类别的能力,具体来说就是分清哪些图片和文本是匹配的、哪些不匹配。而且,就算没见过某个类别的标签,它也能完成分类任务,就像下面这张图展示的那样:
Generative(生成式)
OFA模型,也就是One-For-All模型,是阿里巴巴达摩院提出来的一款多模态预训练模型。
它属于生成式方案,用的是统一的Transformer encoder-decoder架构来做预训练和微调,不用针对不同的任务专门设计特定的模型层。
简单说,OFA会把各种不同的任务,都转换成序列到序列(Seq2Seq)的形式,通过生成的方式进行预训练和微调,这样模型就能同时学习多种任务了。
随着大模型的发展,生成式方案现在已经成了研究的热点。其中,多模态大语言模型凭借着强大的多模态感知和理解能力,在一些需要结合多种模态信息进行推理的任务中,表现得特别出色,也能给用户带来更自然、更方便的交互体验。
接下来,咱们就全面解读一下多模态大语言模型的几个重要方面。
多模态大语言模型
一般来说,多模态大语言模型的网络架构,主要包含三个部分:一个预训练的模态编码器、一个预训练的LLM(大语言模型),还有一个模态接口Connector。当然,也可以在LLM后面再加上一个生成器,用来生成不同模态的结果。
模态编码器
模态编码器其实就是一种预训练的模态对齐模型,它的作用很简单,就是提前把不同模态的输入数据,和LLM的输入数据调整到同一维度、相互匹配。
根据输入数据的不同类型,模态编码器也分种类,比如处理图片的图片编码器、处理声音的音频编码器,还有处理视频的视频编码器。
举个例子,常见的图片编码器有这些:
很多研究都表明,输入更高分辨率的图片,能让模型的性能有明显提升。至于怎么提升输入图片的分辨率,目前主要有两种思路:
direct scaling way(直接缩放法)
就是直接输入分辨率比较高的图片,这就需要要么微调一个能接收高分辨率图片的编码器,要么直接换一个本身就支持高分辨率的编码器。
比如CogAgent,它就用了双编码器的结构,一个接收低分辨率图片,一个接收高分辨率图片,然后通过cross-attention,把高分辨率的特征嵌入到低分辨率的分支里。
patch-division methods(补丁分割法)
就是把高分辨率的图片切成多个小补丁(patches),这些小补丁都能输入到低分辨率编码器里。
之后,这些小补丁和这张高分辨率图片对应的低分辨率版本,一起输入到图片编码器中,这样就能分别捕捉到图片的局部特征和全局特征了。
除了图片编码器,还有其他类型的模态编码器,比如CLAP是用来对语音进行编码的,ImageBind则能对图片、文本、语音、深度图、热图、IMU数据这些多种模态的数据进行编码。
大语言模型
大语言模型是一种预训练的大模型,这个大家应该都比较熟悉了:
模态接口
模态接口其实就是一个可以学习的网络,它主要有三种形式:projection-based、query-based和fusion-based。前两种属于token级别的混合,最后一种属于特征级别的混合。
简单解释一下:projection-based方法,就是通过MLP把其他模态的数据特征,映射到文本特征空间里;
query-based方法,就是通过查询(query)的方式,找到输入模态数据对应的文本特征;fusion-based方法,则是通过多头注意力机制,把输入中的文本特征和其他模态的特征混合在一起。
前两种方法得到的文本特征,也需要和输入中的文本特征结合起来,不过和fusion-based的结合方式不一样,前两种一般是直接拼接(concat)在一起。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
