当前位置: 首页 > news >正文

rf 强化学习第五章 广义优势估计(GAE)部分(共五章)

回顾带baseline的REINFORCE算法中用到的动作优势部分为,其中Gt是真实采样轨迹,真实采样不会系统性的偏离期望值,但是单条轨迹的波动性很大,所以是高方差,低偏差的。

而Actor-Critic算法中用到的动作优势部分为,由于其中的状态价值函数来自于Critic网络对St和St+1的评估,而参数一开始是随机初始化的,所以可能有很大的偏差,但是随机性很小,所以是低方差,高偏差的。

广义优势估计(GAE)算法的核心思想就是在这两者之间找到一个平衡。

δt只有一步来自真实奖励值,所以叫做一步优势估计记作At1

=δt

有两步来自真实奖励值,叫做二步优势估计记作At2

=δt+γδt+1

有k步来自真实奖励值,叫做k步优势估计记作Atk

GAE将所有可能的Atk加权平均,

其中λ是0到1之间的超参数,我们想让所有的权重之和等于1

由于所有权重之和累加等于

,所以可以给每个权重乘以1-λ,从而所有权重和为1。

从而最终的GAE公式为

代入GAE公式化简:

将每个δt+l的系数加和,得到对于任意δt+l的系数为

得到GAE公式为:

从而得到通用公式,使得每一步都可以利用前一步的计算结果

参考视频:

RethinkFun的个人空间-RethinkFun个人主页-哔哩哔哩视频

http://www.cnnetsun.cn/news/2883168.html

相关文章:

  • Vivado功耗报告(Report Power)实战:从布线后分析到散热设计,一个报告全搞定
  • MATLAB一键运行图像DFT频谱分析:含灰度转换、中心化频谱图与逆变换重建
  • PyTorch模型部署实战:model.eval()和torch.no_grad()到底该用哪个?附Flask API示例
  • 从微程序入口逻辑看CPU设计:为什么你的单总线CPU时序仿真总出错?(以HUST实验为例)
  • GNN实战代码集:GCN与GraphSAGE实现节点分类、边预测、交通流建模及过平滑分析
  • MPC8560高速接口设计实战:DDR与以太网时序规范与PCB实现
  • 别死记硬背GCD公式!用‘乐高积木’思维图解递归,轻松玩转分数计算
  • GEE实战:像元二分法反演区域植被覆盖度(FVC)的技术流程与调优
  • 激光雷达3D检测新思路:手把手拆解FSDv2的‘虚拟体素’与‘投票中心’(WOD/nuScenes实测)
  • 别再只靠拉开距离了!实测告诉你PCB上天线隔离度差10dB的真实原因
  • 3D大模型位置编码:C2RoPE的创新与突破
  • 从‘你好’到完整回复:一步步图解ChatGLM2-6B的推理循环(附KV Cache原理)
  • 不只是空气和水:格子玻尔兹曼方法(LBM)在电池散热与芯片设计中的实战案例拆解
  • Java开发工具全解析:提升开发效率的秘密武器
  • Courant-Fischer定理如何解释PCA主成分的选取?一个数据降维的极值原理故事
  • WordPress Porto 主题后台一直提示 Porto Functionality 插件需要更新,如何隐藏?
  • 如何在24GB以下显卡上玩转AI图像生成?FLUX.1-dev FP8模型深度体验
  • ARM Cortex-M DWT CYCCNT 必须显式初始化,jlink调试时正常,使用时异常的问题
  • YOLOv8保姆级调优指南:从CSPDarknet53到PANet,手把手教你提升目标检测精度
  • 鸿蒙导航意图 的 Flutter 侧封装思路
  • 手把手教你用PHY6222芯片的simpleBLEPeripheral例程,从广播数据到属性表一次搞懂
  • 5KB内实现适用于curses的克朗代克纸牌游戏:参加IOCCC的独特尝试!
  • 基于工程教育认证的计算机课程管理平台(论文+源码)
  • Keyboard Chatter Blocker终极指南:Windows键盘连击问题的免费解决方案
  • 在品牌竞争日益激烈的今天,你是否正面临品牌定位模糊、产品陷入同质化内卷、增长陷入瓶颈的困境?
  • 告别“手工账”时代:一文读懂《医药中间体实验记录软件》如何重塑研发效率
  • 数字人切入,我用魔珐星云搭建政务大厅咨询数字人,低成本落地便民接待
  • 从怀疑到真香!2026年文本转语音哪个好用?实测后我只留这一款
  • 跨平台NTRIP协议C++实现:含客户端、服务端与广播服务器三合一工具包
  • 从煤粉到蒸汽:保姆级拆解火电厂锅炉的‘能量流水线’,每一步都在干啥?