当前位置: 首页 > news >正文

深度学习进阶(二十一)跨窗口的 RPE

为什么要提出跨窗口的 RPE?#

1.1 正余弦绝对编码的局限#

我们还是用上一篇的例子来展开这个问题:假设模型上下文窗口长度为 4,一段长文本被切成了两个 segment:

Segment 1Segment 2
Position 1AE
Position 2BF
Position 3CG
Position 4DH

引入 Memory 后,Segment 2 中的 token 可以看到 Segment 1 的编码信息。
但模型无法区分位置 4 到底是指 D(第一个 segment 的末尾),还是 H(第二个 segment 的末尾)。

那可不可以这样:

利用正余弦的无限外推能力,直接让位置编码跨 segment 递增不就行了?Segment 1 用位置 1~4,Segment 2 用位置 5~8?

但问题在于:

正余弦位置编码虽然可以理论上无限生成,却并不意味着模型真的具备无限长度泛化能力。

要理解这一点,我们需要明白的是:PE 只是帮助学习的一环。
注意力真正的学习是词嵌入、位置编码、QKV 矩阵等综合实现的,这些实际上都是在训练长度范围内形成的。

假设模型训练的上下文长度为 512,那么模型长期接触的位置范围其实只有 0 ~ 512,它会在这个空间内形成比较稳定的分布。

但如果采用跨 segment 递增,出现了一个 PE(512000),模型没有在这种位置分布上训练过,导致无法泛化。
从专业名词上说,这叫:extrapolation degradation(外推退化)
这时就像让一个每天练习正常考试题的学生没有任何防备的去做竞赛题。巨大的差异会直接影响原本已经稳定的“解题思路”。
从而导致KQV 矩阵投影异常、注意力得分漂移等问题。
总结来说就是:

强行使用看似合理实际却不适配的配件,表面上解决了问题,但实际却带来了更多 bug。

因此,单纯使用全局递增的绝对位置编码,实际上并不能真正跨段的长上下文建模。

1.2 可学习绝对编码的局限#

相比正余弦绝对编码,可学习绝对编码的局限就更明显了:

完全没有外推能力。

展开来说,Transformer 中的可学习绝对位置编码本质上其实是一张位置查找表,当我们设置上下文长度为 512 时, 它就为每个位置初始化一组向量作为位置编码并注入,在反向传播中不断更新。

它不是位置越大,自动推导,而只是:“训练时记住了这个位置应该长什么样”。
所以,当采用跨 segment 递增,出现了一个 PE(512000),但可学习绝对编码只到PE(512)。而要增加就又回到了最初的窗口大小和计算量问题。

最终,可学习绝对位置编码因为本质上无法支持无限长度扩展,不适用于 Transformer-XL 。

1.3 原始 RPE 的局限#

在原始 RPE中,我们介绍了 Shaw 等人提出的相对位置编码:引入可学习的 和 ,分别加到 Key 和 Value 上。

从逻辑上说,相对位置天然就是跨窗口的,但过去的水救不了现在的火,原始 PRE 存在两个待优化问题:

  1. 可学习的相对位置表有长度限制。如果训练时最大相对距离是 10,而需要分段的长序列相对距离可能达到几千,这时候查表查不到,只能截断,信息丢失严重。
  2. "K/V 加法注入"的方式过于粗糙。它只是简单地把位置信息线性叠加到语义表示上,无法形成更丰富的交互。

因此,Transformer-XL 并没有直接用原始 RPE,而是重新设计了一套相对位置编码方案。

2.正余弦相对位置编码#

现在我们知道了 Transformer-XL 必须使用 RPE ,在正式展开其注入逻辑前,我们需要先了解 Transformer-XL 本身对编码逻辑的设计:正余弦相对位置编码

一个问题是:

“继续沿用原始 RPE 的相对位置表不可以吗?”

就像这样:

相对距离编码
-1
-2
-3

原因就是我们上面提到的:

可学习的相对位置表有长度限制,外推能力不足。

于是 Transformer-XL 做了一个非常关键的决定:

重新使用正余弦函数生成相对编码。

具体来说,对于相对距离:

Transformer-XL 会直接使用正余弦函数生成对应位置编码:

公式本身的计算逻辑和原始 Transformer的正余弦绝对编码没有任何区别,只是把绝对位置 变成了相对距离 。

假设位置编码维度:,:

维度公式计算结果

最终得到:

这就是 “相对距离为 -2” 对应的相对位置编码,它完善了长序列中的位置编码,相比绝对编码具有更好的泛化性。

不过这里需要注意的是,这种编码仍然存在上面提到的正余弦绝对编码的局限。
因为模型中的QKV 投影矩阵、Attention 模式等本质上仍然是在有限上下文范围内训练得到的,不能通过单独的编码设计就完全解决这些问题。
因此也催生了后续的更多改进。

3. 跨窗口的 RPE#

现在,我们通过正余弦相对位置编码解决了原始 RPE 可学习的相对位置表有长度限制的问题,一下个问题就是:"K/V 加法注入"的方式过于粗糙。

而 Transformer-XL 的做法并不是继续修补原始 RPE,而是重新推导 Relative Attention 的计算形式。

还是先回忆一下普通 Self-Attention 公式:

其中计算注意力分数的部分是:

但问题在于原始的它只包含“内容”,没有真正包含“位置关系”,所以原始 RPE 才会把 RPE 注入到 Attention 中。
而现在,这部分再次被重新改写为:

这也是 Transformer-XL 最核心的 Relative Attention 公式。
看起来很复杂,但它其实只是把“内容”和“位置”进行了分开建模。
我们分点来看:

3.1 内容项和位置项#

http://www.cnnetsun.cn/news/3011458.html

相关文章:

  • GraalVM原生镜像构建实战:十分钟让你的Java应用启动速度快100倍
  • Windows平台FTP服务器搭建实战:从FileZilla Server配置到安全加固
  • 体检报告翻译去哪办理?办理体检报告翻译件的费用是多少?
  • Rust 生命周期的工程意义
  • 大数据没那么远:把散乱数据理顺,让业务敢用
  • 终极修复指南:快速恢复DSM 7.2+群晖Video Station功能
  • 分布式算力容器与连续张量拓扑:基于 Gunicorn 多进程套接字复用与 NumPy 共享内存的 IPC 通信架构
  • 权限控制系统角色与资源管理
  • Wayback Machine网页时光机扩展:一键找回消失网页的终极指南
  • 移动端开发工具链
  • 数据分包传输:从原理到实践,解决大文件传输与网络不稳定的关键技术
  • 用了一个 AI 聚合平台后,我终于明白多模型入口的价值
  • 汇编——数据宽度
  • 基于若依框架的企业后台管理系统快速开发实践
  • 智能锡膏管理公司如何选择?
  • 拆开宝珀五十噚Tech常驻款,这处机芯打磨让专柜销售闭嘴
  • 哈迪斯2|官方中文|Build.23661331-战歌四起-冥界神威+全DLC+修改器
  • AI 建议在 `@Transactional` 方法里直接调用 `@Async`,为什么异步线程并不会继承事务
  • Tidal-Media-Downloader:Tidal 音乐下载,一个命令行工具就够了
  • 【设计报告+源码+数据集】基于YOLO11的洋葱叶片病害检测系统
  • IDEA 2026安装必须知道的3个“不写进文档”的真相:License Server绕过限制、Docker Desktop集成冲突、Apple Silicon M3芯片专属补丁包
  • 人工智能专业术语详解(V)
  • chemdraw软件安装步骤(附安装包)ChemDraw 2023 下载安装教程(图文步骤)
  • Claude Code 最新版安装教程|Windows/Mac/Linux 全平台保姆级指南
  • 数据分析转大模型:把关键流程跑顺
  • 非局部梯度与对抗性总变分:从数学基础到图像复原实践
  • 【项目文档+源码】基于YOLO12+Flask的石榴果实生长阶段检测系统
  • 企业数字化转型 AI 智能体解决方案哪家强? 2026全球主流Agent架构实测对比与落地指南
  • 上班通勤没时间看书,有哪些听书平台推荐?想把路上时间用起来,可以先试帆书
  • NLP任务的首次大一统合集 - 深度学习进阶(31)1.深度学习进阶(一)从注意力到自注意力03-312.深度学习进阶(二)多头自注意力机制(Multi-Head Attention)