当前位置: 首页 > news >正文

PPO强化学习

零基础学习强化学习算法:ppo_哔哩哔哩_bilibili

Observation观测是state的局部,state的信息并不是全部有用

求期望≈用的蒙特卡洛近似

蒙特卡洛近似期望,最后1/N

讲解:这一步马尔可夫轨迹联合概率分解

log内相乘等于log外连加

下式:该梯度是全部轨迹期望回报函数的上升方向,沿梯度更新参数,能让全局期望回报得到最大幅度提升。

这个梯度向量代表期望回报函数的上升方向: 将梯度乘以学习率,对网络参数 做正向更新,会整体提升高回报轨迹动作的输出概率,降低低回报动作概率,最大化全局平均回报。

这就是policy gradient

去掉求导,看这个函数:命为L.当r>0时,如右图,横坐标可以当成p,纵坐标为函数的值

直观意义:

  • 当整条轨迹总回报 (R(\tau^n)>0\):要让 L 变大,就必须提升这条轨迹每一步的 \(P_\theta(a_n^t|s_n^t)\),也就是增大这条轨迹里所有动作被策略选中的概率,强化好的行为序列。
  • 当整条轨迹总回报 \(R(\tau^n)<0\):R 是负数,要让 L 变大,就要减小 \(\log P_\theta\),也就是降低这条轨迹里动作的发生概率,抑制不好的行为序列。

定义Loss函数,加上-,让优化器最小化他

下图是策略网络的示意图

局限,一个轨迹当return小于0时,会减小整个轨迹中所有状态下采取当前动作的概率,这样是不合理的.

1.是否增大或减小当前状态下采取动作的概率,应该看做了这个动作之后到游戏结束的return,不应该是整个轨迹的return.因为一个动作只能影响之后不能影响之前

2.一个动作有可能对接下的reward有影响,但是可能只影响几步,影响会逐步衰减.

进而修改公式

1.是从当前的步求和以及引入衰减因子

2.当前的局势好坏也会影响概率的增加,当前是好局势,所有动作都会由正的reward,那么就会增加所有的概率,会让训练变慢----加上baseline

其他概念

看怎么计算优势函数

又因为

可以多步TD

为方便表示

得到

GAE优势函数

引入价值网络

PPO

从目标分布 \(p(x)\) 采样很难 / 代价极高,但另一个分布 \(q(x)\)(提议分布)采样很简单时: 不用硬采 p,只采容易采样的 q,再用权重 \(\frac{p}{q}\) 修正样本,就能算出 p 下的期望。

重要性采样是一种分布修正技巧:用容易采样的分布 q 替代难采样的目标分布 p 采集样本,再通过权重 \(\frac{p}{q}\) 修正样本偏差;在强化学习中,它是实现 Off-Policy(离线策略学习)的核心数学工具。

用重要性采样

Loss函数

加上约束

http://www.cnnetsun.cn/news/3174711.html

相关文章:

  • 嵌入式系统调度算法介绍
  • 【Python环境】从零解读PyCharm项目结构:虚拟环境、外部库与uv包管理器
  • 大模型微调实战:从LoRA原理到Qwen2-7B金融问答模型部署
  • 直方图靠右曝光
  • AI大模型学习指南:从Transformer到RAG与LoRA的体系化入门
  • ASP.NET 首页性能的十大做法
  • 企业级知识库搭建全流程:从数据清洗、向量化存储到RAG问答系统落地
  • 构建Apple Music级动态歌词体验:从架构设计到性能优化的完整技术指南
  • 《智人之上》第四章「错误:绝对正确是一种幻想 」读后总结
  • 实战指南:如何用OBS RTSP服务器插件构建专业级流媒体分发系统
  • Windows XP Mode for Windows 7
  • 没有详细的统计过大家的解法
  • 昭通高口碑黄金回收白银回收
  • 明日方舟自动化助手终极指南:5个智能技巧彻底改变你的游戏体验
  • 亲测工业制造GEO优化效果真的值吗?
  • NumPy基础:科学计算入门
  • 知识加工模块与博客工厂模块的状态重新定义
  • C# GeneratedRegex:面向对象语言的“底层性能突围
  • Codex Windows Sandbox 启动失败:CreateProcessAsUserW failed: 2 的原因与修复
  • SnapClick 1.1.1 更新速递:右键秒开 / 多编辑器打开 / 录屏 HUD / 毛玻璃透明度
  • 2-1注释,数据类型,与input的使用方法
  • 新闻项目---项目结构
  • 卡梅德生物技术快报|构建噬菌体肽库:全质粒 PCR 克隆优化、NGS 序列偏倚分析与淘选数据定量解析
  • Windows C++编译 Paddle Inference 3.5.0 GPU 版本完整指南
  • Win10 家庭版启用组策略 gpedit.msc:3步解决本地安全策略缺失问题
  • SQL Server 2022 嵌套查询实战:3类子查询与连接查询性能对比分析
  • MySQL 8.0 连接查询深度解析:5种JOIN执行过程与适用场景图解
  • OTB-2015 与 VOT2023 数据集对比:从 100 个序列到 60 个挑战的 10 年演进分析
  • AI 时代,学会R之后,很多人后悔了
  • Unity AssetBundle 2022.3 内存泄漏排查:3种 Unload 误用场景与 Profiler 取证