当前位置: 首页 > news >正文

大模型学习基础(四) Transformer架构 下

上一篇文章里介绍了Encoder,本篇文章来介绍Decoder

以语音辨识问题为例。

一种典型的Decoder结构是Autoregressive(自回归)的Decoder。即每一步的输出依赖于之前的所有输出

有了Encoder的输出以后,将其一次性输入Decoder,并且伴随一个起始标识,Decoder的直接输出的是一个概率分布,例如如果是语音转中文辨识问题,会给出一组中文字表(这个中文字表需要事先人为设定)以及其对应的概率分布,然后将最大概率对应的字作为输出;有了第一个输出,Decoder会把这个输出连带之前的输入一起作为新的输入,再得到新的概率分布,再找到对应的中文字,然后重复上述过程。

Decoder的内部结构如下:

可以将其和Encoder做一个对比:

比较重要的几个点:
这里的Multi-Head Attention机制增加了Masked操作。

完整的Self-Attention机制如上,我们知道Self-Attention机制就是结合上下文机制,即每一个输入向量分量要考虑其它所有分量的相关度。

而增加了Masked以后,其表示图如下:

其实是每一个输入向量分量在计算相关度时,只能考虑在它之前出现过的分量,而不能考虑在它之后出现过的分量。

Decoder在上述语音辨识问题中还要遇到一个问题,就是判断输出何时停止。那么这时需要在前面提到的中文字表中添加一个“end”即停止标识。

Encoder和Decoder交互的地方实际如下图(Cross attention部分):

其详细作用过程如下:

给Encoder输入语音序列,在经过Encoder的多block处理后,得到一排向量。首先将begin向量作为Mask Self-attention层的输入,得到第一个输出向量,计算该向量的q向量,利用self-attention中的k、v向量生成机制计算出Encoder每个输出向量的k、v向量,将其组合产生输出向量,通过全链接神经网络,最终得到一个输出词;将这个输出词作为新的输入交给Mask Self-attention层,计算和之前的所有输入向量的相关度继续得到新的输出,然后继续和Encoder的输出进行self-attention操作,然后循环此操作。

将Mask Self-Attention的输出向量和Encoder的输出向量进行Self-Attention操作称之为Cross attention计算。

下面介绍Transformer如何训练。

以中文语音辨识为例,显然数据集格式应该为:输入(语音),输出(文字序列)

我们知道Decoder直接输出每个向量是一组概率分布,如第一个输出:{机(0.8)器(0.1)学(0.1)习(0)}

而实际上第一个输出向量标签为“机”,转化成独热码形式应该是:{机(1)器(0)学(0)习(0)}

显然这类似一个多分类问题,可以用交叉熵作为损失函数,

,在第一个输出向量中,

这里需要特别提醒的是,在训练阶段,Decoder的输入是人为给定正确答案,而不是用其自己根据起始Begin向量生成的向量通过cross attention生成的输出向量作为输入再做mask self-attention。

http://www.cnnetsun.cn/news/2616.html

相关文章:

  • 零拷贝的原理
  • 祝贺东航首飞全球最长单程航线!通义千问和 AI 网关助力推出首个行程规划 Agent
  • 微服务架构下高可用、高保真接口 MOCK 解决方案的深度解析与实践
  • 交大医学院 | VHL综合征家系致病基因研究克服WES/芯片检测小片段CNV的技术缺陷
  • MoonBit Pearls Vol.17 :在 MoonBit 中实现 IntMap
  • 14、Mercurial与Buildbot搭建代码管理与持续集成环境
  • 15、软件代码管理与生命周期迭代式管理指南
  • 16、软件项目管理与文档编写指南
  • 17、项目文档编写指南
  • 18、软件开发中的交叉引用与测试驱动开发详解
  • 19、测试驱动开发:工具、技巧与文档驱动实践
  • 20、Python代码优化:通用原则与性能分析技术
  • 21、程序优化:原理、分析技术与解决方案
  • 23、Python 性能优化与设计模式解析
  • 24、实用设计模式解析
  • 学习C#第四周(方法好难。。
  • 字符串常用方法,一
  • 边缘计算+AI视频:Wan2.2-T2V-5B的未来潜力分析
  • Wan2.2-T2V-5B是否支持分布式推理?多卡并行加速方案探讨
  • Wan2.2-T2V-5B能否生成冰雪运动教学演示视频?
  • 天津装修设计,这家口碑好的团队,究竟凭啥获认可?
  • mqtt 快速了解应用场景,Mosquitto (windows11) 安装 到 常用命令 (内容由 AI 生成)
  • 深度学习中的标准差:通俗解释 + 简易计算 + 实战应用 ,模型性能评估:判断推理结果是否 “稳定” + 模型训练稳定性监控:判断模型是否 “学偏” (内容由 AI 生成)
  • Flutter 与原生通信的所有方式(最全总结)
  • 揭秘 DB-Engines 排名国产第一的时序数据库 DolphinDB
  • TCP网络巩固知识基础题(5)
  • 借助 Let‘s Encrypt 节省 SSL 证书费用
  • 当SOLIDWORKS Simulation到达极限,你需使用Abaqus的5个明确信号!
  • 从卡顿到飞起!5步提升SOLIDWORKS复杂装配体性能
  • 当 altool 退出历史舞台,iOS 上传链路的演变与替代方案的工程实践