当前位置：首页 > news >正文

大模型微调--Dora微调

news 2026/5/31 10:58:02

https://arxiv.org/pdf/2402.09353
DoRA: Weight-Decomposed Low-Rank Adaptation

DoRA: Weight-Decomposed Low-Rank Adaptation

DoRA（Weight-Decomposed Low-Rank Adaptation）是一种用于大模型微调的高效参数优化方法，通过分解权重矩阵并结合低秩适配技术，显著减少训练参数量，同时保持模型性能。

核心思想

DoRA将预训练权重矩阵分解为幅度（magnitude）和方向（direction）两部分，并对方向部分应用低秩适配（LoRA）。这种分解方式能够更精细地控制权重更新，避免直接微调全参数带来的计算开销。

数学表达形式为：
W=m⋅V∣∣V∣∣F W = m \cdot \frac{V}{||V||_F}W=m⋅∣∣V∣∣FV
其中：

WWW是原始权重矩阵
mmm是幅度标量
VVV是方向矩阵
∣∣V∣∣F||V||_F∣∣V∣∣F表示Frobenius范数(矩阵元素的平方和的平方根)

实现方法

权重分解
将原始权重WWW分解为幅度mmm和归一化方向V∣∣V∣∣F\frac{V}{||V||_F}∣∣V∣∣FV。幅度表示权重的重要性，方向决定特征变换的性质。

低秩适配
对方向矩阵VVV应用LoRA技术，使用低秩矩阵AAA和BBB进行更新：
V=V0+BA V = V_0 + BAV=V0+BA
其中V0V_0V0是冻结的初始方向，A∈Rr×kA \in \mathbb{R}^{r×k}A∈Rr×k,B∈Rd×rB \in \mathbb{R}^{d×r}B∈Rd×r是可训练的低秩矩阵（r≪d,kr \ll d,kr≪d,k）。

训练过程
仅训练幅度参数 $ m $ 和低秩矩阵 $ A,B $，冻结原始权重 $ W $。更新公式为：
W′=m′⋅V0+BA∣∣V0+BA∣∣F W' = m' \cdot \frac{V_0 + BA}{||V_0 + BA||_F}W′=m′⋅∣∣V0+BA∣∣FV0+BA

优势特点

参数效率：相比全参数微调，可减少90%以上的训练参数量。
性能保留：在多项NLP任务中达到或超过全微调（full fine-tuning）的效果。
训练稳定：幅度与方向解耦使优化过程更平滑，避免梯度爆炸/消失。
模块化设计：可灵活应用于Transformer的各类权重矩阵（Q/K/V/FFN）。

注意事项

秩（rank）的选择需要平衡参数效率和性能，通常4-32之间效果较好。
初始化策略影响收敛速度，建议对 ( A ) 使用Kaiming初始化，( B ) 初始化为零。
可与其它高效微调方法（Adapter、Prefix-tuning）结合使用。

https://github.com/NVlabs/DoRA/blob/main/commonsense_reasoning/peft/src/peft/tuners/dora.py

self.weight_m_wdecomp=nn.Linear(1,out_features,bias=False)# self.weight_m_wdecomp.weight # shape: out_features, 1self.fan_in_fan_out=fan_in_fan_out self.Wdecompose=Wdecompose# whether to tune only the magnitude component of Wdecompose or notself.dora_simple=dora_simple# whether to use dora simple to save up GPU memoryifself.Wdecompose==False:ifr>0:self.lora_A=nn.Linear(in_features,r,bias=False)self.lora_B=nn.Linear(r,out_features,bias=False)self.scaling=self.lora_alpha/self.r# Freezing the pre-trained weight matrixself.weight.requires_grad=Falseself.reset_parameters()iffan_in_fan_out:self.weight.data=self.weight.data.Tdefreset_parameters(self):nn.Linear.reset_parameters(self)ifhasattr(self,"lora_A"):# initialize A the same way as the default for nn.Linear and B to zeronn.init.kaiming_uniform_(self.lora_A.weight,a=math.sqrt(5))nn.init.zeros_(self.lora_B.weight)deftrain(self,mode:bool=True):nn.Linear.train(self,mode)ifself.Wdecompose==False:self.lora_A.train(mode)self.lora_B.train(mode)self.weight_m_wdecomp.train(mode)ifnotmodeandself.merge_weightsandnotself.merged:# Merge the weights and mark itifself.Wdecompose:norm_scale=(self.weight_m_wdecomp.weight/(torch.linalg.norm(self.weight,dim=1)).unsqueeze(1))weight=norm_scale*self.weight self.weight.data.copy_(weight.detach())else:ifself.r>0:new_weight_v=self.weight+transpose(self.lora_B.weight @ self.lora_A.weight,fan_in_fan_out=self.fan_in_fan_out)*self.scaling weight=(self.weight_m_wdecomp.weight/(torch.linalg.norm(new_weight_v,dim=1)).unsqueeze(1))*new_weight_v self.weight.data.copy_(weight.detach())self.merged=Trueelifself.merge_weightsandself.merged:raiseNotImplementedError

adapters中的配置

config=DoRAConfig()model.add_adapter("dora_adapter",config=config)

查看全文

http://www.cnnetsun.cn/news/71985.html

PySide6 的 QSettings简单应用学习笔记

使用LangChain编排Seed-Coder-8B-Base实现自动化脚本生成

谷歌学术镜像网站资源助力gpt-oss-20b研究论文查阅

抖音直播内容高效保存指南：告别错过精彩瞬间的烦恼

泉盛UV-K5/K6对讲机LOSEHU固件：5大升级功能与终极配置方案

跨平台应用性能深度剖析：Electron 与开源鸿蒙（OpenHarmony）在真实业务场景下的资源调度、启动效率与能效表现对比

广东深圳一家IPO企业重度依赖单一客户，产品结构单一竞争力存疑

APK Pure是否适合发布Qwen3-14B移动端应用？可行性分析

AutoDock Vina批量分子对接终极指南：从效率瓶颈到高效实战突破

基于Qwen3-32B构建高质量内容生成系统的完整指南

企业微信智能表格高效计算工作人天：日 / 周 / 月全维度公式 + 实操指南

RTL8852BE无线网卡驱动：让Linux连接更稳定的终极方案

5分钟快速上手Vue时间轴组件：timeline-vuejs完整使用指南

HunyuanVideo-Foley模型调优技巧：降低Token使用量，提升生成效率

基于单片机电机功率测量系统Proteus仿真(含全部资料)

MATLAB从零开始实现粒子群优化算法PSO

Stable Diffusion 3.5 FP8高分辨率输出实测：1024×1024图像生成全记录

云端部署DeepSeek + 本机Cherry Studio接入

原神圣遗物管理终极指南：椰羊cocogoat工具箱让配装效率翻倍

Three.js结合FLUX.1-dev生成动态3D场景纹理资源的技术路径

开源大模型新星｜Qwen-Image在GitHub上的star增长趋势分析

Dify API调用Qwen-Image-Edit-2509实现企业级图像处理服务

Codex API调用成本高？试试免费Qwen3-VL-8B替代方案

GitHub Wiki搭建Qwen3-VL-30B开发者知识库

企业采购Qwen3-32B商业授权需要注意哪些条款？

【收藏必备】别再用Copilot骗自己：AI求职的真相，藏在Dify的“深度技术“里

HunyuanVideo-Foley开源发布：基于GitHub的智能视频音效生成技术详解

3个技巧告别论文格式困扰：XMU-thesis让学术写作更高效

技术与管理双通道如何建设

AI原生应用中的上下文窗口：原理、实现与优化