当前位置: 首页 > news >正文

6. 网络优化方法之 学习率 优化/衰减策略

1. 学习率优化


如图:学习率=0.01时收敛速度很慢,学习率=0.1时收敛速度变快,学习率越大 收敛速度越快;
学习率=0.2 即学习率较大是会来回震荡,学习率=0.3 即学习率过大时会发生梯度爆炸(即远远超出所在范围)

结论:
学习率越小,梯度下降越慢;学习率越大,梯度下降越快,可能会越过最小值,造成震荡,甚至不收敛(梯度爆炸);

2. 学习率衰减方法 (衰减策略)

2.1 等间隔学习率衰减方法

2.2 指定间隔学习率衰减方法

2.3 指数间隔学习率衰减方法

2.4 总结:

学习率衰减策略介绍:
1️⃣ 目的:较之于AdaGrad,RMSProp,Adam方式,我们可以通过 等间隔,指定间隔,指数等方式,来手动控制学习率的调整.

2️⃣ 分类:
等间隔学习率衰减
指定间隔学习率衰减
指数学习率衰减

3️⃣ 等间隔学习率衰减:
step_size:间隔的轮数,即:多少轮调整一次学习率。
gamma:学习率衰减系数,即:Lr新=Lr旧*gamma

优点: 直观,易于调试,适用于大批量数据.
缺点: 学习率变化较大,可能跳过最优解.
应用场景: 大型数据集,较为简单的任务。

4️⃣ 指定问隔学习率衰减:
milestones = [50, 125, 160] 里边定义的是要调整学习率的 轮数。
gamma: 学习率衰减系数,即:lr新 = lr旧 * gamma

优点:易于调试,稳定训练过程.
缺点: 在某些情况下可能衰减过快,导致优化提前停滞.
应用场景: 对训练平稳性要求较高的任务。

5️⃣ 指数间隔学习率衰减:
前期学习率衰减快,中期慢,后期更慢.更符合梯度下降规律
公式:Lr新 = Lr旧 * gamma ** epoch

优点: 平滑,且考虑历史更新,收敛稳定性较强.
缺点: 超参调节较为复杂,可能需要更多的资源.
应用场景: 高精度训练,避免过快收敛.

http://www.cnnetsun.cn/news/2503645.html

相关文章:

  • 深度解析:ASP.NET Core微服务架构实战手册
  • CANN/asc-devkit UB到L1数据搬运API
  • 如何快速掌握Prism-Samples-Wpf交互性编程:InvokeCommandAction事件驱动开发终极指南
  • 机器视觉开发-使用YOLO8预训练模型检测目标
  • CANN/asc-devkit C API归约函数文档
  • Bpmn Process Designer扩展开发实战:如何自定义流程元素与规则
  • AI Scientist-v2容器化部署终极指南:使用Docker简化安装与配置的完整教程
  • 基于SpringBoot的温州低空技术企业认定管理系统设计与实现
  • 3分钟解决Windows苹果设备驱动难题:Apple-Mobile-Drivers-Installer深度技术解析
  • AI Scientist-v2并行代理系统深度解析:如何同时探索多个研究路径
  • CANN/pypto循环结束判断API
  • Angular ESLint与TypeScript ESLint完美集成:完整配置指南
  • CANN/pypto量化矩阵乘法
  • AI Scientist-v2伦理考量:AI自动化研究的责任与透明度
  • 洞见规范---幕墙性能之十三太保---防火性能
  • OptScale 安全最佳实践:10个关键步骤保护你的云成本数据和配置
  • Vibe Vibe 工具链对比:Cursor、Windsurf、Bolt.new、Replit深度评测
  • 深度解析VMPDump:基于VTIL的智能VMP动态脱壳与导入表修复工具
  • 人教版高中英语选择性必修二单词音频+单词表+单词默写表(2026年最新)
  • 如何快速搭建XGBoost开发环境:新手的完整配置指南
  • 围棋AI训练平台KaTrain:免费智能教练的终极使用指南
  • Inno Setup 简体中文语言包:3分钟让Windows安装程序说中文![特殊字符]
  • 围棋AI训练新境界:5步掌握KaTrain智能陪练核心技巧
  • 革命性JarEditor插件:无需解压直接编辑JAR包的终极指南
  • 如何用SciencePlots快速制作专业科研图表:终极美化方案指南
  • 在Node.js项目中配置Taotoken作为统一的AI服务调用层
  • 【Midjourney毛玻璃效果终极指南】:20年AI视觉工程师亲授5步精准复现iOS/Windows级玻璃拟态
  • b3dkit 生成连接器
  • ElevenLabs高棉文语音私有化部署终极方案(含Docker+Khmer IPA音素映射表),仅限前200位技术负责人获取
  • Allen-Bradley 280D-F12Z-10B-CR启动控制模块