当前位置：首页 > news >正文

PPO强化学习

news 2026/7/6 3:16:34

零基础学习强化学习算法：ppo_哔哩哔哩_bilibili

Observation观测是state的局部,state的信息并不是全部有用

求期望≈用的蒙特卡洛近似

蒙特卡洛近似期望,最后1/N

讲解:这一步马尔可夫轨迹联合概率分解

log内相乘等于log外连加

下式:该梯度是全部轨迹期望回报函数的上升方向，沿梯度更新参数，能让全局期望回报得到最大幅度提升。

这个梯度向量代表期望回报函数的上升方向：将梯度乘以学习率，对网络参数做正向更新，会整体提升高回报轨迹动作的输出概率，降低低回报动作概率，最大化全局平均回报。

这就是policy gradient

去掉求导,看这个函数:命为L.当r>0时,如右图,横坐标可以当成p,纵坐标为函数的值

直观意义:

当整条轨迹总回报 (R(\tau^n)>0\)：要让 L 变大，就必须提升这条轨迹每一步的 \(P_\theta(a_n^t|s_n^t)\)，也就是增大这条轨迹里所有动作被策略选中的概率，强化好的行为序列。
当整条轨迹总回报 \(R(\tau^n)<0\)：R 是负数，要让 L 变大，就要减小 \(\log P_\theta\)，也就是降低这条轨迹里动作的发生概率，抑制不好的行为序列。

定义Loss函数,加上-,让优化器最小化他

下图是策略网络的示意图

局限,一个轨迹当return小于0时,会减小整个轨迹中所有状态下采取当前动作的概率,这样是不合理的.

1.是否增大或减小当前状态下采取动作的概率,应该看做了这个动作之后到游戏结束的return,不应该是整个轨迹的return.因为一个动作只能影响之后不能影响之前

2.一个动作有可能对接下的reward有影响,但是可能只影响几步,影响会逐步衰减.

进而修改公式

1.是从当前的步求和以及引入衰减因子

2.当前的局势好坏也会影响概率的增加,当前是好局势,所有动作都会由正的reward,那么就会增加所有的概率,会让训练变慢----加上baseline

其他概念

看怎么计算优势函数

又因为

可以多步TD

为方便表示

得到

GAE优势函数

引入价值网络

PPO

当从目标分布 \(p(x)\) 采样很难 / 代价极高，但另一个分布 \(q(x)\)（提议分布）采样很简单时：不用硬采 p，只采容易采样的 q，再用权重 \(\frac{p}{q}\) 修正样本，就能算出 p 下的期望。

重要性采样是一种分布修正技巧：用容易采样的分布 q 替代难采样的目标分布 p 采集样本，再通过权重 \(\frac{p}{q}\) 修正样本偏差；在强化学习中，它是实现 Off-Policy（离线策略学习）的核心数学工具。

用重要性采样

Loss函数

加上约束

http://www.cnnetsun.cn/news/3174711.html

相关文章：

嵌入式系统调度算法介绍

【Python环境】从零解读PyCharm项目结构：虚拟环境、外部库与uv包管理器

大模型微调实战：从LoRA原理到Qwen2-7B金融问答模型部署

直方图靠右曝光

AI大模型学习指南：从Transformer到RAG与LoRA的体系化入门

ASP.NET 首页性能的十大做法

企业级知识库搭建全流程：从数据清洗、向量化存储到RAG问答系统落地

构建Apple Music级动态歌词体验：从架构设计到性能优化的完整技术指南

《智人之上》第四章「错误：绝对正确是一种幻想」读后总结

实战指南：如何用OBS RTSP服务器插件构建专业级流媒体分发系统

Windows XP Mode for Windows 7

没有详细的统计过大家的解法

昭通高口碑黄金回收白银回收

明日方舟自动化助手终极指南：5个智能技巧彻底改变你的游戏体验

亲测工业制造GEO优化效果真的值吗？

NumPy基础：科学计算入门

知识加工模块与博客工厂模块的状态重新定义

C# GeneratedRegex：面向对象语言的“底层性能突围

Codex Windows Sandbox 启动失败：CreateProcessAsUserW failed: 2 的原因与修复

SnapClick 1.1.1 更新速递：右键秒开 / 多编辑器打开 / 录屏 HUD / 毛玻璃透明度

2-1注释，数据类型，与input的使用方法

新闻项目---项目结构

卡梅德生物技术快报｜构建噬菌体肽库：全质粒 PCR 克隆优化、NGS 序列偏倚分析与淘选数据定量解析

Windows C++编译 Paddle Inference 3.5.0 GPU 版本完整指南

Win10 家庭版启用组策略 gpedit.msc：3步解决本地安全策略缺失问题

SQL Server 2022 嵌套查询实战：3类子查询与连接查询性能对比分析

MySQL 8.0 连接查询深度解析：5种JOIN执行过程与适用场景图解

OTB-2015 与 VOT2023 数据集对比：从 100 个序列到 60 个挑战的 10 年演进分析

AI 时代，学会R之后，很多人后悔了

Unity AssetBundle 2022.3 内存泄漏排查：3种 Unload 误用场景与 Profiler 取证