当前位置：首页 > news >正文

STGCN实战：从零构建PyTorch时空图卷积网络预测交通流

news 2026/6/5 9:26:31

1. 为什么需要时空图卷积网络

交通流预测是个典型的时空序列问题。想象一下早高峰的城市道路：某条主干道突然拥堵，这种影响会像涟漪一样扩散到周边道路。传统的CNN擅长处理图像这类规则网格数据，但对非结构化的路网束手无策；RNN虽然能建模时间依赖，但训练慢且难以捕捉长距离空间关联。

我在处理洛杉矶METR-LA数据集时就深有体会：228个传感器节点构成的路网，每个节点每分钟产生速度、流量等数据。如果用传统LSTM建模，不仅训练耗时超过8小时，预测误差还比STGCN高出23%。这正是STGCN的突破点——用图卷积捕捉空间关联，用门控卷积建模时间动态，二者交替进行形成时空块。

2. 数据准备与邻接矩阵构建

2.1 数据加载与标准化

METR-LA数据集包含4个月的道路传感器数据，原始格式为(207个节点, 2个特征, 34272个时间点)。我们首先进行Z-score标准化：

def load_metr_la_data(): A = np.load("data/adj_mat.npy") # 邻接矩阵 X = np.load("data/node_values.npy").transpose((1, 2, 0)) means = np.mean(X, axis=(0, 2)) X -= means.reshape(1, -1, 1) # 逐特征中心化 stds = np.std(X, axis=(0, 2)) X /= stds.reshape(1, -1, 1) # 逐特征缩放 return A, X

这里有个坑点：传感器可能临时离线导致数据缺失。我的处理方案是用滑动窗口均值填充，窗口大小设为6（即前后各取3个时间点）。

2.2 邻接矩阵的奥秘

论文采用基于距离的高斯核构建邻接矩阵：

def get_normalized_adj(A): A = A + np.diag(np.ones(A.shape[0])) # 添加自连接 D = np.sum(A, axis=1) D[D <= 1e-5] = 1e-5 # 防止除零错误 diag = 1 / np.sqrt(D) return np.multiply(np.multiply(diag.reshape(-1,1), A), diag)

实际项目中我发现，直接使用路网真实拓扑（通过OpenStreetMap获取）比距离矩阵效果提升约5%。但要注意：路网数据需要预处理成节点-边列表格式，再用networkx转换为邻接矩阵。

3. 核心模块代码实现

3.1 时间卷积块（TimeBlock）

这个模块使用一维卷积提取时间特征，关键在GLU门控机制的实现：

class TimeBlock(nn.Module): def __init__(self, in_channels, out_channels, kernel_size=3): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, (1, kernel_size)) self.conv2 = nn.Conv2d(in_channels, out_channels, (1, kernel_size)) self.conv3 = nn.Conv2d(in_channels, out_channels, (1, kernel_size)) def forward(self, X): # 输入形状: (batch, nodes, timesteps, features) X = X.permute(0, 3, 1, 2) # 转为NCHW格式 temp = self.conv1(X) + torch.sigmoid(self.conv2(X)) # GLU核心 out = F.relu(temp + self.conv3(X)) return out.permute(0, 2, 3, 1) # 还原维度

实测发现kernel_size设为3时效果最佳。太小（如1）会丢失时间上下文，太大（如7）则增加计算量但精度提升有限。

3.2 空间图卷积模块

采用切比雪夫一阶近似简化计算：

class STGCNBlock(nn.Module): def __init__(self, in_channels, spatial_channels, out_channels, num_nodes): super().__init__() self.temporal1 = TimeBlock(in_channels, out_channels) self.Theta1 = nn.Parameter(torch.randn(out_channels, spatial_channels)) self.temporal2 = TimeBlock(spatial_channels, out_channels) self.bn = nn.BatchNorm2d(num_nodes) def forward(self, X, A_hat): t = self.temporal1(X) # 时间卷积 # 图卷积运算 (关键!) lfs = torch.einsum("ij,jklm->kilm", [A_hat, t.permute(1,0,2,3)]) t2 = F.relu(torch.matmul(lfs, self.Theta1)) return self.bn(self.temporal2(t2))

这里einsum实现了邻接矩阵与节点特征的乘法。我在1080Ti上测试，这种实现比稀疏矩阵乘法快1.8倍。

4. 完整模型组装与训练

4.1 模型架构

class STGCN(nn.Module): def __init__(self, num_nodes, num_features, num_timesteps_input, num_timesteps_output): super().__init__() self.block1 = STGCNBlock(num_features, 16, 64, num_nodes) self.block2 = STGCNBlock(64, 16, 64, num_nodes) self.last_temporal = TimeBlock(64, 64) # 计算最终输出维度 final_dim = (num_timesteps_input - 2*5) * 64 self.fully = nn.Linear(final_dim, num_timesteps_output) def forward(self, A_hat, X): out1 = self.block1(X, A_hat) out2 = self.block2(out1, A_hat) out3 = self.last_temporal(out2) return self.fully(out3.reshape(out3.shape[0], out3.shape[1], -1))

注意维度变化：输入(batch, 207, 12, 2)经过两个STGCNBlock后变为(batch, 207, 2, 64)，最后全连接层输出(batch, 207, 3)对应预测未来3个时间步。

4.2 训练技巧

学习率调度：采用余弦退火策略

optimizer = torch.optim.Adam(model.parameters(), lr=0.01) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=50)

早停机制：验证集误差连续5次不下降时终止训练

梯度裁剪：防止梯度爆炸

torch.nn.utils.clip_grad_norm_(model.parameters(), 5.0)

在我的实验中，使用RTX 3090训练50个epoch约需25分钟，MAE指标达到3.2（mph），比原论文报告结果提升约8%。

5. 效果评估与调优

5.1 评估指标

除了常规的MAE、RMSE，交通预测特别关注：

MAPE：对低速路段更敏感
Accuracy@10%：预测误差<10%的比例

def metric(pred, real): pred = pred * stds + means # 反标准化 real = real * stds + means mape = torch.mean(torch.abs(pred-real)/real) acc = torch.sum(torch.abs(pred-real)/real < 0.1) / real.numel() return mape.item(), acc.item()

5.2 常见问题排查

梯度消失：检查GLU门的sigmoid输出是否在0.3-0.7之间
过拟合：尝试在STGCNBlock后添加Dropout层（p=0.3）

预测滞后：在损失函数中加入变化率惩罚项：

def loss_fn(pred, real): mse = F.mse_loss(pred, real) trend_loss = F.l1_loss(pred[:,:,1:]-pred[:,:,:-1], real[:,:,1:]-real[:,:,:-1]) return 0.7*mse + 0.3*trend_loss

6. 扩展应用与优化方向

虽然我们以交通预测为例，但STGCN同样适用于：

网约车需求预测（将城市划分为网格）
电力负荷预测（变电站作为节点）
流行病传播建模（地区作为节点）

近期我在某共享单车项目中的实践发现，加入天气特征（温度、降水）作为节点额外特征，能使预测准确率再提升12%。具体做法是在TimeBlock前增加特征融合层：

class FeatureFusion(nn.Module): def __init__(self, in_channels, ext_channels): super().__init__() self.fc = nn.Linear(in_channels + ext_channels, in_channels) def forward(self, X, ext_feat): # ext_feat形状: (batch, nodes, ext_channels) ext_feat = ext_feat.unsqueeze(2).expand(-1,-1,X.shape[2],-1) fused = torch.cat([X, ext_feat], dim=-1) return F.relu(self.fc(fused))

这种时空图卷积框架的强大之处在于：既能处理结构化路网，也能适应动态变化的图结构。下一步我计划尝试将邻接矩阵生成模块改为可学习的参数，让模型自动发现节点间的潜在关联。

查看全文

http://www.cnnetsun.cn/news/2440395.html