当前位置: 首页 > news >正文

强化学习第六课 —— SAC:熵驱动的更智能探索

目录

  1. 引言:不仅仅是为了赢
  2. 第一章:最大熵目标——混乱中的秩序
    • 2.1 传统 RL 的局限
    • 2.2 引入熵奖励:J(π)J(\pi)J(π)的重构
  3. 第二章:软策略迭代——数学推导的核心
    • 3.1 软值函数与软 Bellman 方程
    • 3.2 策略评估与策略提升
  4. 第三章:SAC 的工程实现——Actor 与 Critic 的共舞
    • 4.1 Critic:双 Q 网络与软目标更新
    • 4.2 Actor:高斯策略与重参数化技巧
    • 4.3 Tanh 变换带来的概率密度修正
  5. 第四章:自动化α\alphaα——让算法自己决定探索力度
  6. 第五章:SAC vs PPO vs TD3——谁是王者?
  7. 结语:随机性的胜利

1. 引言:不仅仅是为了赢

想象你在玩一个走迷宫游戏。

  • DDPG/TD3 (确定性策略)像是一个执着的赛车手,一旦发现了一条通往终点的捷径,它就会死死咬住这条路,哪怕这条路非常狭窄,哪怕稍微有一点扰动就会撞墙。
  • SAC (随机性策略)则像是一团流动的水。它也想去终点,但它倾向于填满所有通往终点的可行路径。如果一条路堵了,它自然流向另一条。

这就是 SAC 的核心哲学。传统的 RL 算法试图寻找一个最优动作,而 SAC 试图寻找一个最优分布。它认为:在回报差不多的情况下,保留的选择越多越好(熵越大越好)。

这种“留有余地”的思想,使得 SAC 成为了目前样本效率(Sample Efficiency)最高且最抗干扰的算法之一。


2. 第一章:最大熵目标——混乱中的秩序

2.1 传统 RL 的局限

标准的强化学习目标是最大化期望累积回报:
max⁡π∑tE(st,at)∼ρπ[r(st,at)] \max_\pi \sum_t \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [r(s_t, a_t)]πmaxtE(st,at)ρπ[r(st,at)]
这种目标函数导向的结果通常是一个确定性策略(Deterministic Policy),即π(a∣s)→1\pi(a|s) \rightarrow 1π(as)1(对于某个最优动作)。这导致 Agent 很容易放弃探索,过早收敛到局部最优。

2.2 引入熵奖励:J(π)J(\pi)J(π)的重构

SAC 基于最大熵强化学习框架。我们将目标函数修改为:

J(π)=∑t=0TE(st,at)∼ρπ[r(st,at)+αH(π(⋅∣st))] J(\pi) = \sum_{t=0}^{T} \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot | s_t))]J(π)=t=0TE(st,at)ρπ[r(st,at)+αH(π(st))]

这里的H(π(⋅∣st))\mathcal{H}(\pi(\cdot | s_t))H(π(st))是策略在状态sts_ts

http://www.cnnetsun.cn/news/82808.html

相关文章:

  • VeraCrypt加密存储实战:5步构建企业级数据安全防线
  • 9 个专科生开题演讲稿工具,AI降AI率软件推荐
  • Flutter Dynamic Widget 终极指南:用JSON构建动态UI的完整教程
  • MacBook 那些“偷偷摸摸”的隐私设置|2026 你现在就该改(真的)
  • 9个降AI率工具推荐!专科生开题报告必备
  • 终极解决方案:5步彻底攻克技术项目软依赖管理难题
  • Orleans告警革命:5大智能策略终结运维疲劳
  • 西安最新 955 公司名单
  • 微信不小心违规被封,好友辅助验证流程怎样?
  • 2024 FRC机器人比赛元素检测:游戏部件、防撞条、April标签与场地识别指南
  • 这款小工具,彻底治好了我的Mac文件管理焦虑
  • 智能助手性能评估:5大关键维度与实战指南
  • 从零开始搭建个人AI助手:Anything-LLM + Ollama下载配置全记录
  • 大模型内存优化技术:从碎片化到高效管理,性能提升45%的实战指南
  • 上海、北京、深圳跻身全球GDP前十城市;奥动新能源向港交所递交上市申请 | 美通社一周热点简体中文稿
  • 前端工程化实践:打包工具的选择与思考
  • Flutter跨平台打包实战:从配置冲突到一键部署的完整解决方案
  • LangChain表达式语言(LCEL)如何扩展Anything-LLM功能?
  • 33、Unix系统下SMB/CIFS文件共享访问指南
  • GESP认证C++编程真题解析 | B3863 [GESP202309 一级] 买文具
  • 9 个专科生开题报告工具,AI降重查重率推荐
  • 39、Samba故障排除指南
  • 【软考架构】滑动窗口限流算法的原理是什么?
  • FlutterToast跨平台通知组件终极指南:从零到专家级定制
  • CasperJS API测试终极指南:构建高效的数据一致性验证体系
  • uniapp+springboot基于微信小程序的学生宿舍报修系统的设计与实现_a1o96z7c
  • 知识产权企业选择CRM系统时,最应关注的核心功能是什么?
  • HyperDX ClickHouse物化视图:构建实时数据分析的终极加速引擎
  • Windows Server 2022官方镜像完整获取指南:从下载到验证的全流程
  • AndroidGen-GLM-4-9B:开启移动智能体新时代的革命性突破