当前位置：首页 > news >正文

一文解读：多模态大语言模型综述，建议收藏！

news 2026/6/3 15:51:19

多模态大语言模型综述，这篇文章就是对这篇综述论文的解读：

引入

多模态模型主要有两种范式，一种是Discriminative（判别式），另一种是Generative（生成式）。其中，判别式的代表就是CLIP，生成式的包括OFA，还有咱们这次重点要讲的——多模态大语言模型（MLLM）。

Discriminative（判别式）

CLIP是OpenAI的经典作品，它用对比学习的方法，把视觉信息（比如图片）和文本信息（比如文字描述）整合到同一个特征空间里，这样对后续做各种多模态相关的任务都很有帮助。

之所以说它是判别式范式，是因为CLIP用的是对比学习框架，训练的时候会对比正样本（匹配的图片和文本对）和负样本（不匹配的图片和文本对）。

这种学习方式的核心，就是锻炼模型区分不同类别的能力，具体来说就是分清哪些图片和文本是匹配的、哪些不匹配。而且，就算没见过某个类别的标签，它也能完成分类任务，就像下面这张图展示的那样：

Generative（生成式）

OFA模型，也就是One-For-All模型，是阿里巴巴达摩院提出来的一款多模态预训练模型。

它属于生成式方案，用的是统一的Transformer encoder-decoder架构来做预训练和微调，不用针对不同的任务专门设计特定的模型层。

简单说，OFA会把各种不同的任务，都转换成序列到序列（Seq2Seq）的形式，通过生成的方式进行预训练和微调，这样模型就能同时学习多种任务了。

随着大模型的发展，生成式方案现在已经成了研究的热点。其中，多模态大语言模型凭借着强大的多模态感知和理解能力，在一些需要结合多种模态信息进行推理的任务中，表现得特别出色，也能给用户带来更自然、更方便的交互体验。

接下来，咱们就全面解读一下多模态大语言模型的几个重要方面。

多模态大语言模型

一般来说，多模态大语言模型的网络架构，主要包含三个部分：一个预训练的模态编码器、一个预训练的LLM（大语言模型），还有一个模态接口Connector。当然，也可以在LLM后面再加上一个生成器，用来生成不同模态的结果。

模态编码器

模态编码器其实就是一种预训练的模态对齐模型，它的作用很简单，就是提前把不同模态的输入数据，和LLM的输入数据调整到同一维度、相互匹配。

根据输入数据的不同类型，模态编码器也分种类，比如处理图片的图片编码器、处理声音的音频编码器，还有处理视频的视频编码器。

举个例子，常见的图片编码器有这些：

很多研究都表明，输入更高分辨率的图片，能让模型的性能有明显提升。至于怎么提升输入图片的分辨率，目前主要有两种思路：

direct scaling way（直接缩放法）

就是直接输入分辨率比较高的图片，这就需要要么微调一个能接收高分辨率图片的编码器，要么直接换一个本身就支持高分辨率的编码器。

比如CogAgent，它就用了双编码器的结构，一个接收低分辨率图片，一个接收高分辨率图片，然后通过cross-attention，把高分辨率的特征嵌入到低分辨率的分支里。

patch-division methods（补丁分割法）

就是把高分辨率的图片切成多个小补丁（patches），这些小补丁都能输入到低分辨率编码器里。

之后，这些小补丁和这张高分辨率图片对应的低分辨率版本，一起输入到图片编码器中，这样就能分别捕捉到图片的局部特征和全局特征了。

除了图片编码器，还有其他类型的模态编码器，比如CLAP是用来对语音进行编码的，ImageBind则能对图片、文本、语音、深度图、热图、IMU数据这些多种模态的数据进行编码。

大语言模型

大语言模型是一种预训练的大模型，这个大家应该都比较熟悉了：

模态接口

模态接口其实就是一个可以学习的网络，它主要有三种形式：projection-based、query-based和fusion-based。前两种属于token级别的混合，最后一种属于特征级别的混合。

简单解释一下：projection-based方法，就是通过MLP把其他模态的数据特征，映射到文本特征空间里；

query-based方法，就是通过查询（query）的方式，找到输入模态数据对应的文本特征；fusion-based方法，则是通过多头注意力机制，把输入中的文本特征和其他模态的特征混合在一起。

前两种方法得到的文本特征，也需要和输入中的文本特征结合起来，不过和fusion-based的结合方式不一样，前两种一般是直接拼接（concat）在一起。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～