当前位置：首页 > news >正文

用Python和蒙特卡洛树搜索（MCTS）从零实现一个会自我对弈的五子棋AI

news 2026/6/3 2:51:41

用Python实现五子棋AI：蒙特卡洛树搜索与神经网络的深度结合

五子棋作为经典策略游戏，其规则简单却蕴含复杂决策过程，是验证AI算法的理想场景。本文将带你从零构建一个能自我对弈的五子棋AI，核心采用蒙特卡洛树搜索（MCTS）结合神经网络的技术路线。不同于传统教程，我们更关注工程实现中的模块化设计、性能优化和实战调试技巧，适合具备Python基础并想深入强化学习实践的开发者。

1. 环境搭建与基础架构

五子棋AI开发需要明确三个核心组件：游戏环境、决策引擎和学习模块。我们选择Python 3.8+作为开发环境，主要依赖库包括：

# 核心依赖清单 numpy==1.21.0 # 矩阵运算 torch==1.9.0 # 神经网络框架 tqdm==4.62.0 # 进度可视化 pygame==2.0.1 # 可选的可视化界面

1.1 棋盘状态表示

高效的状态表示是算法基础。采用15×15的二维数组表示棋盘，用三个值编码：

0：空位
1：玩家1（黑棋）
2：玩家2（白棋）

class Board: def __init__(self): self.size = 15 self.state = np.zeros((self.size, self.size), dtype=int) self.current_player = 1 # 黑棋先行 def get_valid_moves(self): """返回所有合法落子位置""" return [(i,j) for i in range(self.size) for j in range(self.size) if self.state[i,j] == 0]

提示：使用numpy的ndarray比原生列表操作效率提升约40倍，对后续MCTS的并行模拟至关重要

2. 蒙特卡洛树搜索核心实现

MCTS通过模拟对局积累经验，其四大步骤需要精细实现：

2.1 节点结构与树管理

每个节点需记录关键统计量：

访问次数（N）：该节点被探索的总次数
累计价值（Q）：所有模拟结果的累计得分
先验概率（P）：神经网络给出的初始策略

class Node: def __init__(self, parent=None, action=None): self.parent = parent self.action = action # 导致该节点的落子动作 self.children = [] self.N = 0 # 访问次数 self.Q = 0 # 累计价值 self.P = 0 # 先验概率

2.2 UCB选择策略

平衡探索与利用的UCB公式实现：

$$ UCB = Q + c \cdot P \cdot \frac{\sqrt{\sum N}}{1 + N} $$

其中超参数c控制探索强度，经验值通常设为1.5-2.0：

def ucb_score(node, c=1.5): if node.N == 0: return float('inf') # 优先探索未访问节点 return node.Q / node.N + c * node.P * math.sqrt(math.log(node.parent.N) / (1 + node.N))

2.3 并行化模拟优化

传统MCTS的瓶颈在于串行模拟，我们采用多进程加速：

from multiprocessing import Pool def parallel_simulate(args): """包装模拟函数用于多进程""" board, network = args return simulate(board.copy(), network) with Pool(4) as p: # 4个worker进程 results = p.map(parallel_simulate, [(board, network)]*num_simulations)

注意：进程间通信成本较高，建议每次传递最小必要数据。实测在8核CPU上可获得5-6倍加速

3. 神经网络策略设计

3.1 双输出网络架构

网络需要同时输出策略分布（落子概率）和价值评估（胜负预测）：

import torch.nn as nn class PolicyValueNet(nn.Module): def __init__(self, board_size=15): super().__init__() self.conv1 = nn.Conv2d(3, 32, 3, padding=1) self.conv2 = nn.Conv2d(32, 64, 3, padding=1) # 策略头 self.policy_conv = nn.Conv2d(64, 2, 1) self.policy_fc = nn.Linear(2*board_size**2, board_size**2) # 价值头 self.value_conv = nn.Conv2d(64, 1, 1) self.value_fc = nn.Sequential( nn.Linear(board_size**2, 64), nn.ReLU(), nn.Linear(64, 1), nn.Tanh()) def forward(self, x): # x: [batch, 3, 15, 15] x = F.relu(self.conv1(x)) x = F.relu(self.conv2(x)) # 策略输出 p = F.relu(self.policy_conv(x)) p = self.policy_fc(p.view(x.size(0), -1)) p = F.softmax(p, dim=1) # 价值输出 v = F.relu(self.value_conv(x)) v = self.value_fc(v.view(x.size(0), -1)) return p, v

3.2 训练数据构造

自我对弈生成的数据需包含：

棋盘状态序列
MCTS输出的策略分布
最终胜负结果

def collect_selfplay_data(network, num_games=10): data = [] for _ in range(num_games): game_states = [] game_probs = [] board = Board() while not board.is_terminal(): # MCTS生成策略 probs = mcts_get_action_probs(board, network) game_states.append(board.state.copy()) game_probs.append(probs) # 按策略落子 action = select_action(probs) board.do_move(action) # 添加胜负标签 winner = board.get_winner() data.extend([(s, p, winner) for s, p in zip(game_states, game_probs)]) return data

4. 完整训练流程与调优

4.1 迭代训练方案

采用交替进行的训练循环：

数据生成阶段：当前网络进行N局自我对弈
网络训练阶段：用新数据更新网络参数
评估阶段：新旧网络对战检验进步

def train_loop(initial_network, num_iterations=10): current_net = initial_network for i in range(num_iterations): # 生成数据 print(f"Iteration {i}: Generating data...") data = collect_selfplay_data(current_net, num_games=100) # 训练网络 train_network(current_net, data, epochs=5) # 评估模型 if i % 2 == 0: evaluate(current_net, benchmark_net) return current_net

4.2 关键调优技巧

学习率调度：初期用较大学习率(0.01)，后期逐渐衰减(0.001)
数据增强：通过旋转/镜像扩充棋盘状态
正则化策略：Dropout层防止过拟合
硬件加速：使用CUDA加速神经网络推理

# 示例学习率调度器 scheduler = torch.optim.lr_scheduler.StepLR( optimizer, step_size=50, gamma=0.1)

5. 可视化与实战分析

5.1 对弈过程可视化

使用Pygame实现交互界面：

def draw_board(screen, board): """绘制棋盘状态""" cell_size = 40 margin = 30 # 绘制网格 for i in range(board.size): pygame.draw.line(screen, BLACK, (margin, margin+i*cell_size), (margin+(board.size-1)*cell_size, margin+i*cell_size), 2) # 绘制棋子 for i in range(board.size): for j in range(board.size): if board.state[i,j] == 1: # 黑棋 pygame.draw.circle(screen, BLACK, (margin+j*cell_size, margin+i*cell_size), 18) elif board.state[i,j] == 2: # 白棋 pygame.draw.circle(screen, WHITE, (margin+j*cell_size, margin+i*cell_size), 18)

5.2 决策热点图

可视化AI的落子偏好：

def plot_policy_heatmap(probs, board_size=15): plt.figure(figsize=(8,8)) sns.heatmap(probs.reshape(board_size, board_size), cmap="YlOrRd", annot=True, fmt=".2f") plt.title("Move Probability Distribution") plt.show()

在项目开发过程中，最耗时的部分是MCTS的并行化实现。最初尝试使用Python的threading模��，但由于GIL限制性能提升有限。切换到multiprocessing后，需要特别注意棋盘状态的序列化效率，最终采用numpy的tobytes/frombytes方法比pickle快3倍。另一个关键发现是：神经网络输出加入温度参数（temperature）能显著改善探索效率，在训练初期设置较高温度（如1.5）有助于发现新策略，后期逐步降低到0.3提升稳定性。

查看全文

http://www.cnnetsun.cn/news/2589535.html