当前位置: 首页 > news >正文

针对大规模语言模型的离群值安全预训练创新,可防止离群值并保护量化准确性

总结

LLM 4 位量化是在设备上部署的一项重要技术,因为它可以大大减少推理过程中的内存使用量。然而,众所周知,训练过程中出现的 “异常值”(极端激活值)会大大降低量化的性能。传统的方法是在训练后处理这个问题,例如通过训练后量化(PTQ),但这些方法并没有从根本上解决这个问题,而是将异常值视为不可避免的。

在本研究中,我们提出了解决这一问题的新视角:离群值安全预训练(OSP)训练框架,它由 Muong 优化方法、单尺度 RMS 归一化(SSNORM)和可学习的嵌入式投影(EMBPROJ)组成。与传统模型相比,OSP 通过在万亿令牌规模上训练 1.4B 参数模型,显著提高了量化容忍度,减少了性能下降。

建议的方法

所提出的离群值安全预训练(OSP)是一种预训练方法,旨在从根本上防止离群值。该框架由三个部分组成。

首先,Muon 优化方法与 Adam 和 AdaFactor 等传统的对角预条件优化方法不同,它使用了一种正交梯度矩阵的算法。这可以防止激活集中于特定通道(特权基础),并实现所有通道的平等学习。

其次,Single-Scale RMSNorm(SSNORM)消除了传统的按通道缩放,对所有维度使用单一缩放因子,防止了归一化带来的偏差。这使他们能够减少训练过程中的不稳定性,同时也避免了对激活的过度抑制。

第三,嵌入投影(EMBPROJ)使用可学习的投影矩阵均匀化激活分布,以防止嵌入层产生局部异常值;只有嵌入层使用 Adam 进行训练,其他参数使用 Muon。此外,为了实现实用性和计算效率,我们还采用了一种分离式优化策略,即只使用 Adam 对嵌入层进行训练,而对其他参数则使用 Muon。

实验

实验是在一个 14 亿参数的 LLM 上进行的,使用 1,000 亿和 1 万亿代币进行可扩展训练。首先,利用峰度过大量化异常值,并观察其演变情况。使用传统 Adam 训练的模型显示出峰度超过 1000 的离群值,而使用 OSP 的模型则继续保持 0.04 的极低值。

为了验证 4 位量化的性能,比较了 10 个基准(如 ARC、MMLU、GSM8k 等)的平均得分;Adam 训练的模型得分 26.5,而 OSP 模型得分 35.7。此外,当与训练后量化(PTQ)方法结合使用时,OSP 模型始终保持较低的复杂度,并显示出强大的量化性能。

此外,我们还分析了注意力机制中的 "注意力下沉 "现象,这种现象在异常值消失后依然存在,表明两者是由不同的机制造成的。这证明了 OSP 作为一种优化的量化训练方法的有效性。

http://www.cnnetsun.cn/news/7686.html

相关文章:

  • 数字供应链系统哪个好?2025 供应链系统推荐排名来了,八大供应链系统
  • M.I.B.终极指南:解锁汽车娱乐系统的隐藏功能
  • 把 ABAP CDS 讲清楚:从 ABAP 7.40 SP05 的语义建模,到 SP08 的函数、参数化与扩展视图
  • 终极PHP兼容性检查工具:轻松应对版本迁移挑战
  • Kamailio usrloc 细节测试
  • 探索STM32单片机仿真温湿度采集控制系统
  • MediaPipe实时多模态感知:从单点检测到全身协同追踪的技术革命
  • SMDJ33A单向 TVS瞬态抑制二极管 :33V电压000W 浪涌,中压电路防护核心
  • MCP 2025量子编程认证重大升级(新增内容全曝光)
  • Bottles:让Windows软件在Linux上轻松运行的智能解决方案
  • 日志框架问答整理(吊打面试官)
  • 从零到安全工程师:2025年必备技能树详解(附实战学习蓝图)
  • Komikku:免费开源的Android漫画阅读器终极指南
  • 长耗时接口异步改造总结
  • 解码人类智慧密码——贾子五定律(Kucius Five Laws):贾子认知、历史、战略、军事、文明五定律
  • 启点创新智慧景区小程序系统,景区智能化售票系统,景区购票管理系统
  • 3种快速安装readr数据读取工具的方法:从入门到精通
  • 对比实测:传统vs自动化VMware安装,效率提升300%
  • 跨平台字体革命:PingFangSC字体包的终极解决方案
  • 14 类圣诞核心 SVG 交互方案拆解(附案例 + 资源)
  • 7个技巧轻松搞定Node.js版本升级:从16.x到20.x的无痛迁移指南
  • MCP SC-400配置避坑手册(一线专家亲授10大常见错误)
  • Ghost没落、同行消失,深度却靠国产系统翻盘?关键点不止一个!
  • 5分钟掌握PROPKA:蛋白质pKa预测的终极入门指南
  • dotNetFx40_Full_x86_x64:解决Windows开发环境配置难题的终极方案
  • 终极解决方案:如何快速解除Cursor试用限制
  • PMail个人邮件服务器:3步搭建私有邮箱的完整指南
  • 阿里自研Wan2.2-T2V-A14B如何实现720P高清视频生成?
  • 从0到1,普通开发者也能构建自己的AI Agent(附完整流程)
  • Bonree ONE 发布直通车| 如何利用核心链路,快速排查定位系统故障?