当前位置: 首页 > news >正文

Informer论文

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer是对Transformer的改造,分为Encoder和Decoder两部分。Informer相对Transformer的主要改进如下:

  1. 针对Self-attention计算复杂度高的问题:提出Prob Sparse Self-attention,筛选出Active query,降低计算复杂度;
  2. 针对Attention Stack内存过高的问题:提出Self-attention Distilling,减少维度和网络参数量;
  3. 原始Transformer的Decoder是step-by-step逐步解码,运行很慢:提出生成式Decoder,一次性生成长序列预测。

ProbSparse 自注意力机制

ProbSparse 自注意力机制 (ProbSparse self-attention mechanism)用于解决传统自注意力机制的二次方计算和内存复杂度问题,该机制的核心在于识别并只关注那些"主导性"的点积对,从而实现稀疏化。

Informer使用Kullback-Leibler (KL) 散度来衡量均匀分布和注意力概率分布之间的距离,目的是识别那些”激活“或”重要“的查询(Query), 即查询稀疏性度量

注意力分布的稀疏性:通过定性评估发现,自注意力机制中学习到的注意力分数形成了长尾分布(long tail distribution), 这意味着少数点积对贡献了主要的注意力,而其他点积对产生的注意力是微不足道的。

区分注意力的稀疏性:由于注意力机制得出的结论是:第i个查询qiq_iqi对所有键K的注意力被定义为一个概率分布p(kj∣qi)p(k_j∣q_i)p(kjqi); **”非重要查询特征“指的是,如果p(kj∣qi)p(k_j∣q_i)p(kjqi)接近均匀分布q(kj∣qi)=1/LKq(k_j∣q_i)=1/L_Kq(kjqi)=1/LK,则自注意力机制的结果将变成值得求和。”重要特征“**指的是,主导性得点积对会促使相应的注意力概率分布远离均匀分布。

KL散度:利用KL散度,即使用概率分布ppp均匀分布qqq之间的相似性来区分重要查询

Decoder: 一次性生成长序列输出

Step1: 构造输入

Encoder输入为:XencX_{enc}Xenc=32 * 96 * 7, 那么Decoder的输入为:Xdec=32∗72∗7X_{dec}=32*72*7Xdec=32727(32个batch,72个时间点的数据,每个时间点的数据对应7维的特征)。XdecX_{dec}Xdec构造方式如下:

(1)选取被预测序列之前的一小段数据作为start_token:从XencX_{enc}Xenc的后半段开始取,比如从XencX_{enc}Xenc的时间点49 ~ 时间点96 取共48个时间点的数据。

(2)需要预测的数据用0 mask掉:从时间点97 ~ 时间点120 取共24个时间点的数据,当然这部分的数据的目标变量是未知且待预测的

Step2: 带掩码的概率稀疏自注意力机制

(1)用Decoder的输入做mask attention,在decoder输入中,当前时间点的qqq只和当前时间点之前的kkk做attention,相当于KTQK^TQKTQ矩阵中只有kiTqj(i<=j)!=0k^T_iq_j(i<=j)!=0kiTqj(i<=j)!=0,矩阵其余部分为0。

(2)Lazy query对应的输出ojo_joj不再用所有时间点的vvv的均值填充,而是用当前时间点之间的所有vvv累加值填充。

(3)交叉注意力机制Cross Self Attention, K、V是Encoder的输出,Q来自上一层的输出

http://www.cnnetsun.cn/news/137589.html

相关文章:

  • stm32毕设本科生任务书指导
  • 效率神器!QuickTextPaste 便携版:快速文本粘贴 + 预设管理全攻略
  • 向量在计算机图形学中的核心应用
  • SelectDB索引实战:从入门到精通,避开那些年我踩过的坑
  • 探秘常见机器人控制运动上位机源码:解锁多种运动算法
  • 9 个降AI率工具,继续教育学生必备!
  • 运用工具Postman快速导出python接口测试脚本
  • 研发管理软件:合规・协同・智能・灵活为汽车部件行业研发管理强力赋能——全星研发管理APQP软件系统功能解析
  • EMS-NT企业微电网能碳管理平台:架构、功能与应用研究
  • 读捍卫隐私10读后总结与感想兼导读
  • OpenAI发布GPT-5.2系列;谷歌推出Gemini Deep Research API:AI领域的最新战况与未来前景
  • 华为云国际站代理商的AS跨境有什么优势呢?
  • NPP 草原:美国中部平原实验牧场(SGS),1939-1990 年,R1
  • CCD相机同步外触发拍照抓拍识别高速脉冲计数器信号采集模块
  • 【网络安全】2025新手如何上手挖漏洞(非常详细)零基础入门到精通,看这篇就够了!
  • BurpSuite渗透测试通关手册,简单几步带你从环境配置到报告生成
  • Python | OpenCV | 图像处理 | 入门实验 | 对比度增强 | 裁剪
  • Apifox:API 接口自动化测试完全指南
  • 正反向代理:网络安全核心技术
  • 别被忽悠了!一文讲透MES管理系统本地部署与SaaS模式的真正底牌
  • 【毕业设计】基于springboot+微信小程序的羽球快讯爱好者平台小程序(源码+文档+远程调试,全bao定制等)
  • 小程序计算机毕设之基于SpringBoot的宠物领养微信小程序基于springboot+微信小程序的宠物领养系统小程序(完整前后端代码+说明文档+LW,调试定制等)
  • 小程序计算机毕设之基于springboot+微信小程序的大学生餐厅点餐系统小程序基于springboot微信小程序的校园食堂订餐服务系统(完整前后端代码+说明文档+LW,调试定制等)
  • 计算机小程序毕设实战-基于springboot+微信小程序的影院售票系统设计与实现基于SpringBoot的电影购票平台微信小程序【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 计算机小程序毕设实战-基于springboot+微信小程序的羽球快讯爱好者平台小程序羽毛球场预定app_羽毛球预约管家【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 11、文本与盒子属性的CSS技巧解析
  • 23、WinJS控件样式与样式规则定位指南
  • 27、Windows 8 应用开发中的 SVG 样式设计
  • SAP ABAP拆分交货单数量、批次、存储地点 并过账
  • 基于MPC的智能车运动预测和控制算法 Motion predication; Kinemati...