当前位置：首页 > news >正文

别再死记硬背了！用‘悬崖行走’游戏带你直观理解Model-based和Model-free的区别

news 2026/5/30 12:59:40

用悬崖行走游戏解锁强化学习的核心密码：Model-based与Model-free实战对比

当新手第一次接触强化学习时，往往会被各种术语和数学符号淹没。与其在公式海洋中挣扎，不如让我们打开Gym库中的CliffWalking-v0环境，用游戏化的方式感受两种核心方法的本质差异。想象你正在训练一个虚拟机器人穿越悬崖地带——这种具象化的学习体验，比任何理论推导都更能建立直觉理解。

1. 环境搭建与核心概念可视化

在开始游戏之前，我们需要明确几个关键概念。CliffWalking-v0是一个4x12的网格世界，其中：

起始点：左下角网格（坐标[3,0]）
终点：右下角网格（坐标[3,11]）
悬崖区域：底部中间10个网格（坐标[3,1]到[3,10]）
奖励规则：
- 每移动一步：-1分
- 落入悬崖：-100分并回到起点
- 到达终点：+100分

import gym env = gym.make('CliffWalking-v0') print("状态空间大小:", env.observation_space.n) print("动作空间:", env.action_space.n) # 0:上, 1:右, 2:下, 3:左

这个简单的环境完美展现了强化学习的核心挑战：智能体需要在探索未知与利用已知之间找到平衡。Model-based和Model-free正代表了两种截然不同的解题思路。

2. Model-based方法：构建内心地图的谨慎探险家

Model-based智能体像一位严谨的制图师，它的核心目标是重建完整的环境模型。具体来说，它会维护以下几个数据结构：

数据结构	描述	初始化值
转移概率矩阵T	记录(s,a)→s'的转移频率	全0
奖励矩阵R	记录(s,a)获得的即时奖励	全0
状态访问计数N	记录(s,a)被尝试的次数	全0

典型学习流程：

随机选择动作执行，观察(s,a,r,s')
更新转移计数：N(s,a,s') += 1
更新奖励统计：R(s,a) = (R(s,a)*(N-1) + r)/N
计算转移概率：T(s'|s,a) = N(s,a,s') / ∑N(s,a,:)
使用动态规划等算法求解最优策略

# 简化的Model-based学习示例 def model_based_learning(episodes): T = np.zeros((48, 4, 48)) # 转移概率 R = np.zeros((48, 4)) # 奖励期望 N = np.zeros((48, 4)) # 访问计数 for _ in range(episodes): state = env.reset() done = False while not done: action = np.random.randint(4) # 随机探索 next_state, reward, done, _ = env.step(action) N[state, action] += 1 R[state, action] += (reward - R[state, action]) / N[state, action] T[state, action, next_state] += 1 state = next_state # 归一化转移概率 for s in range(48): for a in range(4): if N[s,a] > 0: T[s,a,:] /= N[s,a] return T, R

这种方法的优势在于：

构建的环境模型可复用
数据利用率高
策略更新不需要与环境交互

但缺点也很明显：

需要大量内存存储模型
对高维状态空间不友好
模型误差会累积影响策略

3. Model-free方法：专注价值评估的直觉派选手

与Model-based不同，Model-free智能体放弃对环境建模，直接估计状态-动作价值函数Q(s,a)。这就好比不关心地图细节，只记住哪些路线能更快到达目的地。

Q-learning算法核心：

初始化Q表格（状态×动作）
观察当前状态s
选择动作a（ε-greedy策略）
执行动作，获得r和s'
更新Q值： Q(s,a) ← Q(s,a) + α[r + γ·maxQ(s',a') - Q(s,a)]
重复直到收敛

def q_learning(episodes, alpha=0.1, gamma=0.9, epsilon=0.1): Q = np.zeros((48, 4)) for _ in range(episodes): state = env.reset() done = False while not done: # ε-greedy策略 if np.random.random() < epsilon: action = np.random.randint(4) else: action = np.argmax(Q[state]) next_state, reward, done, _ = env.step(action) # Q值更新 best_next_action = np.argmax(Q[next_state]) td_target = reward + gamma * Q[next_state][best_next_action] Q[state][action] += alpha * (td_target - Q[state][action]) state = next_state return Q

Model-free方法的典型特征：

优势：

内存需求低（只需存储Q表）
适合高维状态空间
算法实现简单

局限：

数据利用率较低
探索效率可能不高
超参数敏感（如α, γ, ε）

4. 实战对比：两种方法的行为差异可视化

让我们通过实际运行观察两种智能体的不同表现特征：

Model-based智能体：

初期移动非常谨慎
会反复测试同一位置的多个动作
发现悬崖后立即标记为危险区域
最终路径通常离悬崖较远

Model-free智能体：

初期探索更加随机
可能多次掉入悬崖后才学会避开
最终路径常紧贴悬崖边缘
学习曲线波动较大

注意：在实际项目中，Model-free方法更常用，特别是在环境复杂难以建模时。但Model-based方法在样本效率要求高的场景（如机器人控制）仍有优势。

以下是一个简单的对比实验框架：

def compare_methods(): # 训练Model-based T, R = model_based_learning(1000) mb_policy = value_iteration(T, R) # 假设实现了值迭代 # 训练Model-free Q = q_learning(1000) mf_policy = np.argmax(Q, axis=1) # 评估表现 mb_rewards = evaluate_policy(mb_policy) mf_rewards = evaluate_policy(mf_policy) print(f"Model-based平均奖励: {np.mean(mb_rewards)}") print(f"Model-free平均奖励: {np.mean(mf_rewards)}")