当前位置: 首页 > news >正文

探索强化学习:DQN算法与Q - learning算法的奇妙对决

DQN算法 Q-learning算法 让红色方格自己寻找最便捷的路径避开障碍物到达黄色圆圈,非常的智能 视频里是DQN的训练过程,全程只需要3分钟 Q-learning需要训练半小时

在强化学习的世界里,Q - learning和DQN算法就像两颗璀璨的明星,各自闪耀着独特的光芒。今天咱们就通过一个有趣的例子,看看它们如何各显神通。

想象有一个场景,红色方格要在布满障碍物的环境中,找到一条最便捷的路径,最终抵达黄色圆圈。这就像是一场充满挑战的冒险游戏。

Q - learning算法

Q - learning是强化学习中的经典算法。它的核心思想是通过不断试错,学习在不同状态下采取何种行动能够获得最大的累计奖励。在这个例子里,红色方格所处的每个位置就是一个状态,而它能采取的上、下、左、右移动就是行动。

下面简单用Python代码展示一下Q - learning的基础框架(这里只是简单示意,实际完整代码会更复杂):

import numpy as np # 初始化Q表,假设环境大小为10x10 Q = np.zeros((10, 10, 4)) # 定义学习率 alpha = 0.1 # 定义折扣因子 gamma = 0.9 # 假设这里有个函数能获取当前状态下所有可能行动的奖励 def get_rewards(state): # 简单返回全0奖励,实际需根据环境计算 return np.zeros(4) # Q - learning更新过程 current_state = (0, 0) for _ in range(1000): current_state_index = np.unravel_index(current_state, (10, 10)) action = np.argmax(Q[current_state_index]) rewards = get_rewards(current_state) new_state = # 根据行动更新状态,这里省略具体实现 new_state_index = np.unravel_index(new_state, (10, 10)) Q[current_state_index][action] = (1 - alpha) * Q[current_state_index][action] + \ alpha * (rewards[action] + gamma * np.max(Q[new_state_index])) current_state = new_state

在这个代码片段中,我们首先初始化了一个Q表,用来存储每个状态 - 行动对的价值。然后通过循环不断更新Q表,根据当前状态选择价值最大的行动,再根据获得的奖励和新状态更新Q表中的值。但这个过程需要相对较长的训练时间,在咱们这个例子里,需要训练半小时之久。这是因为Q - learning在处理复杂环境时,Q表的维度会随着状态和行动数量的增加而急剧膨胀,计算量变得非常大。

DQN算法

DQN(深度Q网络)则是Q - learning与深度学习的结合体,它使用神经网络来近似Q函数,从而解决了Q - learning在处理高维状态空间时的困境。

同样用简单代码展示一下DQN的基础构建(同样为示意,非完整代码):

import torch import torch.nn as nn import torch.optim as optim # 定义简单的神经网络模型 class QNetwork(nn.Module): def __init__(self, state_size, action_size): super(QNetwork, self).__init__() self.fc1 = nn.Linear(state_size, 128) self.fc2 = nn.Linear(128, action_size) def forward(self, x): x = torch.relu(self.fc1(x)) return self.fc2(x) # 初始化网络、优化器等 state_size = 2 # 假设状态空间维度为2 action_size = 4 # 假设行动数量为4 q_network = QNetwork(state_size, action_size) optimizer = optim.Adam(q_network.parameters(), lr=0.001) criterion = nn.MSELoss() # DQN训练过程 for _ in range(100): state = torch.FloatTensor([0, 0]) # 初始状态 action = torch.argmax(q_network(state)).item() # 假设这里获取奖励和新状态 reward = 0 new_state = torch.FloatTensor([0, 1]) q_value = q_network(state)[action] target = reward + gamma * torch.max(q_network(new_state)) loss = criterion(q_value, target) optimizer.zero_grad() loss.backward() optimizer.step()

在这里,我们定义了一个简单的神经网络QNetwork来近似Q函数。通过不断训练这个网络,让它学会在不同状态下选择最优行动。DQN的优势就在于,它利用神经网络强大的函数逼近能力,能够处理复杂的状态空间,而且训练速度相对更快。在视频里,用DQN完成红色方格找路径的训练过程,全程只需要3分钟。这得益于神经网络可以更高效地处理信息,通过梯度下降等优化算法快速更新网络参数。

通过这个红色方格找路径的例子,我们能清楚看到DQN算法在训练效率上相较于Q - learning算法的巨大优势。但每种算法都有其适用场景,Q - learning简单直观,在一些状态空间较小的场景中依然发挥着重要作用,而DQN则在面对复杂的高维状态空间时更胜一筹。这就像是不同的工具,在强化学习的大工具箱里,各自有着独特的用途。

http://www.cnnetsun.cn/news/112933.html

相关文章:

  • 基于CEEMDAN-PE-LSTM模型的复杂时间序列预测算法与优化探讨
  • 5分钟搭建TLS兼容性测试原型
  • MySQL启动图解指南:小白也能懂的5步操作
  • Notepad++新手必知的10个实用技巧
  • 电商后台API模拟实战:用json-server搭建原型系统
  • DVWA靶场文件上传通关
  • 2025最新实测:我用这5个降AI工具把知网AIGC率从79%降到了6.2%(附免费反向优化法)
  • 拒绝机械降重!2025年“手动+工具”去AI味全指南:教你用DeepSeek指令+10款工具把AI率降至安全线
  • “期刊论文不是‘投稿机器’,是科学对话的邀请函——宏智树AI期刊论文功能,让每一篇投稿都自带‘学术社交力’”
  • Vulkan教程(十二):图形管线,Vulkan 渲染的核心流程
  • “场景化 + 利益前置” 风格拟定标题,从多学科适配、专业级控制、高效协作三大维度重构内容,突出宏智树 AI 绘图功能的差异化优势:
  • 电商网站链接失效危机?快马AI解决方案全解析
  • 为什么网站无法打开-eshukan.com
  • AI如何解决TLS协议版本不匹配问题
  • 查重不是“安检门”,而是你学术表达的“校音器”——宏智树AI免费查重,让引用有回响,原创有回声
  • Git删除过去分支(如删除23年及之前的分支)
  • AB测试:数据驱动决策的科学与艺术
  • 零基础学会用vue-qrcode制作第一个二维码
  • foreach vs for循环:大数据量下的性能对比实验
  • 3.9 Elasticsearch-跨集群搜索(CCS)与跨集群复制(CCR)
  • 用NATS+AI快速构建物联网数据采集原型
  • Excel格式转换异常?新手必看的5分钟解决指南
  • 【智能聊天助手部署教程 (基于 Streamlit + Ollama)】
  • 好写作AI第二大脑:当研究灵感不再碎片化,你的“学术外脑”已上线
  • 好写作AI第二大脑:当研究灵感不再碎片化,你的“学术外挂”已上线
  • 守护代码世界的守门人——软件测试团队心理健康白皮书
  • PinWin窗口置顶工具:提升Windows多任务效率的终极指南
  • Sheet-to-Doc:用Excel数据和Word模板自动生成文档
  • 27岁,转行网络安全,是这辈子最成功的一件事......_27岁开始搞网安好吗
  • 基于 OpenCV C# 的直线卡尺工具源码分享