当前位置: 首页 > news >正文

NLP任务的首次大一统合集 - 深度学习进阶(31)1.深度学习进阶(一)从注意力到自注意力03-312.深度学习进阶(二)多头自注意力机制(Multi-Head Attention)

了位置信息,我们真的需要把自注意力拆成四项吗?

这并非无端质疑, 2020 年的论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 反其道而行之,提出了一种极简的偏置型 RPE,成功让 RPE 进入了下一个阶段。
不过同样的是,论文并非专门提出这种 RPE,它的工作中心就是题目中的T5,即 Text-to-Text Transfer Transformer,核心思想就是:

把分类、摘要、问答、翻译等一切 NLP 任务都塞进一个框架里:输入是文本,输出也是文本。

从地位和后续影响来说,T5 可以说是现代自然语言指令对话的起点,是对 NLP 任务形式的首次大一统,因此,本篇同样先展开 T5 本身的架构,再说明其 RPE 逻辑。

1. 如何训练统一模型?#

如何统一训练统一模型?其实这部分内容就是整篇论文的核心思路,T5 将模型训练分为两部分:

  1. 使用 span corruption 的无监督预训练。
  2. 使用 task prefix 的监督多任务训练。

下面就来分点展开:

1.1 跨度破坏 Span Corruption#

T5 本身的整体架构仍然是原始 Transformer 的编码-解码架构。
而这部分是模型的第一阶段训练,它使用 C4 数据集(一个包含数百亿个 token 的语料库)进行无监督预训练。

这里的关键词就是题目里的Span Corruption,概括来说是这样的:

从输入序列中随机选取一些连续的 token 片段,替换为哨兵 token,以预测这些哨兵 token 为目标,训练整个模型的基础语言理解能力。

这部分其实和我们之前讲的 Word2Vec 的逻辑是类似的,只是前者训练的是词向量表,而现在我们训练的是整个模型的所有相关参数。
其实还有另外一个相关的概念是 BERT,它的想法是遮住单个 token 后判别恢复,而 T5 改为了遮住连续 token 生成恢复,等涉及到相关内容我们再展开。

拿一个英文句子举例:

"Thank you for inviting me to your party last week"

假设我们抹掉两个 span:

  1. "for inviting" →<X>
  2. "last week" →<Y>

现在,模型的输入和标签其实是这样的:

输入:[替换 span 后的原句子] "Thank you <X> me to your party <Y>" 目标输出:[<哨兵 token 序号>对应预测内容···<结束符>] "<X> for inviting <Y> last week <Z>"

你会发现多了一个<Z>,实际上这是在训练阶段我们手动添加的,作为生成任务的结束符加入学习内容。这和我们之前的 语言模型中提到的<EOS>是一个道理。

按这种方式,使用海量数据进行训练后,模型便拥有了基础的语言理解能力。
但要注意,我们要的不是一个“填空模型”,这种做其实就是为了给模型的参数进行一个具备语言理解能力的初始化,所以才被称为“预训练”。

而下面这步,才是实现“统一”的逻辑。

1.2 任务前缀 task prefix#

这部分其实是最好理解的部分,但也是实现 NLP 任务统一的最大前提:

给所有使用的数据加一个任务前缀,让 Transformer 架构按前缀生成对应类型的输出序列。

就像这样:

任务传统做法T5 的做法
翻译Encoder-Decoder 架构,标准 Seq2Seq输入translate English to German: ...,输出译文
摘要专门的 Seq2Seq 模型输入summarize: ...,输出摘要
分类BERT + 分类头输入cola sentence: ...,输出acceptable/unacceptable
相似度双塔 + 回归头输入stsb sentence1: ... sentence2: ...,输出3.8
问答专门的抽取式/生成式模型输入question: ... context: ...,输出答案

你会发现,这种设计就是把任务类型放到了输入序列中,通过大量数据让模型学习到相应的生

http://www.cnnetsun.cn/news/3010844.html

相关文章:

  • Amber99SB-ILDN力场MD模拟mdp文件及数据处理脚本分享
  • 构建个人数字身份标识系统:从jfm608实践看统一管理与安全防护
  • DeepSeek 本地部署完全方案:从环境搭建到推理优化
  • 智谱面试官问:CC 派子 Agent 翻一堆文件,怎么不占主对话的上下文?
  • 【基础算法精讲 12】二叉树的最近公共祖先
  • AI 生成动效代码:从自然语言描述到可运行 CSS 动画的编译管线
  • 【设计书+项目源码】基于YOLOv8+Flask的电动车进电梯检测系统
  • TrollInstallerX:基于双漏洞利用机制的TrollStore部署方案
  • 2026年AI工程师高薪赛道指南:大模型/AIGC风口+济南岗位缺口解析!
  • 翻译公司2026视频口译十强榜揭晓!视频口译画质清晰
  • 在 muShanghai × 观猹 AI 练摊集市的一次高密度体验
  • Debian/Ubuntu 新版系统(Python3.11+)的 PEP 668 外部环境保护机制,不允许直接在系统全局 Python 用 pip 安装包,优先推荐虚拟环境
  • Linux命令-pwconv(从 /etc/passwd 创建 /etc/shadow 影子密码)
  • 中小企业建站困境:为什么“便宜“反而最贵?
  • 职场部门汇报PPT制作工具怎么选?我的长期实测心得
  • PySpark + Delta Lake 实现生产级 Type 2 SCD 最佳实践
  • Spaceship Titanic机器学习入门:二分类实战与特征工程精要
  • TscanPlus:一站式内网安全扫描工具实战配置与优化指南
  • PySpark入门实战:从单机Pandas到TB级分布式数据处理
  • 用cleanlab清洗标签提升XGBoost准确率:数据为中心的实战闭环
  • 【uni-app 性能调优】从 20fps 到 60fps:用“时间切片”根治复杂表单卡顿
  • 数据结构选型指南:从数组到红黑树,工程场景下的抉择逻辑
  • Okbiye 数据分析模块:不用 SPSS,自动生成可直接粘贴进论文的实证报告
  • AI智能体从18.75%到100%:GDPevo自进化基准实测,5条隐性规则如何决定业务正确性
  • Spring boot 后端项目公共基础模块的理解学习
  • Orca-2-7B数学助教实战:轻量模型+结构化提示+公式校验
  • 企业级 Agent 产品架构:从单次对话到多轮编排的商业化跃迁
  • AI 代码生成与验证:当 LLM 写算法题,靠谱程度到底有多少?
  • EVE-NG V7 PC安装部署教程(最细教程)
  • 次梯度下降收敛率分析:基于分层结构与保守集值场