Day7:微调知识点复盘背诵
1. 核心概念
- 微调:在预训练大模型基础上,用标注数据进一步训练,让模型适配特定场景
- SFT(有监督微调):全参数更新,效果上限高,但硬件成本高
- LoRA(低秩适配):仅训练新增低秩矩阵,冻结原模型,显存占用低、速度快
- RAG(检索增强生成):不改动模型,通过检索外部知识库辅助生成,更新成本低
- 过拟合:模型死记训练数据,泛化能力差,新问题表现不佳
2. 数据相关
- 标准格式:Alpaca(instruction+input+output)
- 数据清洗:去重、纠错、剔除无效数据
- 数据集划分:训练集(80%)+ 测试集(20%),防止过拟合
3. 硬件与优化
- 核心硬件:GPU(显卡),显存决定能跑的模型规模
- 显存优化:模型量化(4bit/8bit)、梯度累积、梯度检查点
- 入门推荐:7B 模型 + LoRA + 4bit 量化,8G 显存即可运行
4. 场景选型
表格
| 场景 | 优先方案 |
|---|---|
| 固定话术 / 风格统一 | 微调(LoRA) |
| 知识频繁更新 | RAG |
| 大规模知识库问答 | RAG |
| 轻量领域知识适配 | LoRA 微调 |
| 极致模型能力提升 | 全量 SFT |
