阶段整体复盘汇总
第一部分:模型微调体系(Day1-Day7)
核心方案对比
- 全量 SFT:更新全部参数,效果上限高,显存 / 算力要求极高,个人设备不推荐;
- LoRA(低秩适配):冻结原模型,仅训练少量低秩矩阵,省显存、不破坏原模型,个人 / 小团队首选;
- 模型量化(4bit/8bit):降低数值精度,显存大幅下降,效果损耗极小,低配显卡必备优化。
数据流程原始数据 → 整理为 Alpaca 格式(
instruction+input+output)→ 数据清洗(去重 / 纠错 / 删无效数据)→ 划分训练集 (80%)+ 测试集 (20%) → 训练- 关键点:遵循「垃圾进,垃圾出」;测试集用于检测过拟合(模型死记样本,泛化能力差)。
微调 vs RAG 选型
- 微调:改动模型参数,适合固定话术、风格统一、长期稳定的场景;更新成本高;
- RAG:不改动模型,靠检索外部知识库回答,适合知识频繁更新、海量文档问答场景;
- 工业常用:两者组合使用。
常用库
Transformers:加载模型与分词器;PEFT:实现 LoRA 微调。
第二部分:LLMOps 工程部署(Day1-Day3)
LLMOps 定义大模型从开发→部署→运维→迭代的全流程工程体系,目标是让模型稳定、低成本对外提供服务。
四层架构模型层 → 服务层 → 运维层 → 迭代层
部署方式
- 本地运行:仅开发测试使用;
- API 部署(FastAPI/Flask):生产环境主流,对外提供网络调用接口;
- Docker 容器化:统一运行环境,解决环境不一致问题,方便批量部署、扩容。
线上运维核心能力
- 监控:观测 GPU、显存、接口耗时、错误率等指标;
- 日志:回溯问题、分析用户行为;
- 限流:抵御突发高并发,防止服务崩溃;
- 成本优化:模型量化、云算力按需使用;
- 版本管理 + 灰度发布 + 版本回滚:控制迭代风险,故障快速恢复。
