当前位置：首页 > news >正文

12.7 现代序列模型：BERT、GPT系列、T5等预训练语言模型

news 2026/6/27 12:39:27

12.7 现代序列模型：BERT、GPT系列、T5等预训练语言模型

基于Transformer架构的预训练语言模型是自然语言处理领域近五年来最重大的范式革命。它们通过在超大规模文本语料上进行自监督预训练，学习通用的语言表示，再通过微调适配到各种下游任务，从而实现了前所未有的性能突破和任务泛化能力。本节将深入剖析三类具有代表性的预训练语言模型：基于双向Transformer编码器的BERT、基于自回归Transformer解码器的GPT系列，以及统一了所有任务的文本到文本框架T5。

12.7.1 预训练-微调范式的确立与核心思想

在预训练语言模型兴起之前，深度学习模型通常针对特定任务从零开始训练。这种模式的局限性在于：1）需要大量标注数据；2）学到的特征难以迁移。预训练-微调范式的核心思想是**“两阶段学习”：首先，在一个无需标注的大规模通用语料库上，通过设计自监督任务（预训练目标）让模型学习语言的通用知识（如词汇、句法、语义、常识）；然后，将预训练好的模型作为初始权重，在特定下游任务的标注数据上进行有监督的微调**，使其快速适应新任务。

这一范式的成功依赖于两个关键：强大的Transformer架构作为特征提取器，以及能够有效驱动模型学习高质量语言表示的预训练目标。不同的预训练语言模型主要差异就在于对Transformer结构的选取（编码器、解码器或二者组合）以及对预训练目标的设计。

12.7.2 BERT：深度双向语言表征的突破

BERT（Bidirectional Encoder Representations from Transformers）由Devlin等人于2018年提出[1]。其核心创新在于利用Transformer编码器构建了真正意义上的深度双向语言模型，解决了之前模型（如GPT-1）仅能进行单向上下文建模的限制。

12.7.2.1 模型架构与预训练任务

BERT仅使用Transformer的编码器堆叠而成。其预训练任务的设计是其成功的关键，包含两个自监督任务：

掩码语言模型：在输入序列中，随机遮盖一定比例（如15%）的Token，模型的目标是预测这些被遮盖的原始Token。MLM允许模型在预测时“看见”被遮盖词左右两侧的上下文信息，从而实现深度双向理解。遮盖策略并非简单替换为[MASK]，而是以一定概率替换为[MASK]、随机词或保持原词，以增强鲁棒性。
下一句预测：给定两个句子A和B，模型预测B是否为A的下一句。NSP任务旨在让模型学习句子间的连贯性和关系，这对理解段落、问答等任务至关重要。

输入表示由词嵌入、句子嵌入（区分句子A/B）和位置嵌入相加而成，以一个特殊的[CLS]Token开头，其最终输出向量常用于分类任务。