当前位置：首页 > news >正文

从零手写GAN：NumPy+PyTorch底层实现DCGAN训练全流程

news 2026/6/1 15:14:14

1. 项目概述：这不是调包，是亲手“造轮子”的深度实践

“Building & Training GAN Model From Scratch In Python”——这个标题里没有一个词是虚的。“Building”意味着从零开始搭积木，不是pip install ganlib然后model.train()；“Training”强调的是完整闭环，包括损失计算、梯度更新、收敛监控，而不是把数据喂进去就等结果；“From Scratch”是核心限定词，它直接划清了与所有高级封装框架（如Keras高阶API、PyTorch Lightning）的界限；最后的“In Python”则锚定了技术栈，但绝非指用Python写个for循环，而是指在NumPy、纯PyTorch或纯TensorFlow原生张量操作层面，逐行实现生成器（Generator）、判别器（Discriminator）、对抗损失（Adversarial Loss）、优化器步进（Optimizer Step）乃至训练循环（Training Loop）的每一个数学逻辑。我带过十几期AI工程实训，每次讲到GAN，总有人举手问：“老师，能不能跳过推导，直接用DCGAN跑个MNIST？”我的回答永远是：“可以，但你永远不知道为什么loss突然爆炸，为什么生成图像全是灰色噪点，为什么模型在第37个epoch就崩了。”这正是本项目存在的全部意义：它不追求最快出图，而追求最深理解。它面向三类人：一是刚学完反向传播、想验证自己是否真懂梯度流动的算法新人；二是正在调试生产环境GAN、却卡在梯度消失/模式崩溃问题上的工程师；三是需要向团队清晰解释“为什么我们的生成质量不如竞品”的技术负责人。整套实现全程不依赖任何高层抽象，所有张量运算、参数初始化、损失函数定义、优化器更新，都以最原始、最透明的方式展开。你将看到torch.nn.functional.conv2d如何被手动调用，看到torch.autograd.grad如何显式计算梯度，看到torch.optim.SGD的step()内部到底做了什么。这不是教程，是一份可执行的、带注释的数学笔记。

2. 核心设计思路与方案选型解析

2.1 为什么坚持“纯手工”而非“半手工”？

市面上绝大多数“从零实现GAN”的教程，实际走的是“半手工”路线：用PyTorch定义Generator和Discriminator的网络结构（nn.Module），但训练循环仍依赖nn.GANLoss、optim.Adam自动管理参数更新、DataLoader自动批处理。这种做法看似降低了门槛，实则埋下了三个致命隐患。第一，梯度流黑箱化。当你调用loss.backward()时，PyTorch会自动构建计算图并反向传播，但你完全看不到fake_logits对gen_params的梯度是如何通过discriminator(fake_images)这一长链计算出来的。一旦出现nan梯度，排查路径长达十余层，远超人力可追踪范围。第二，损失函数失真。标准GAN的原始损失是log(D(x)) + log(1-D(G(z)))，但PyTorch内置的BCEWithLogitsLoss默认使用sigmoid + BCE组合，其数值稳定性与原始公式存在微小但关键的差异——在低精度浮点运算下，log(1 - sigmoid(x))极易因sigmoid(x)趋近1而产生log(0)，导致训练瞬间崩溃。第三，优化器行为不可控。Adam的动量项（momentum）和二阶矩估计（RMSProp）在GAN这种极不稳定的目标函数上，常会放大噪声，使判别器过强、生成器梯度消失。而手工实现SGD，你能精确控制学习率衰减节奏、梯度裁剪阈值、甚至每一步的参数更新公式。因此，本项目选择纯NumPy + 原生PyTorch张量操作双轨并行：前向传播与损失计算用NumPy模拟数学过程，帮助你建立直觉；核心训练循环用PyTorch原生张量（torch.Tensor）与torch.autograd，但所有.backward()调用后，都紧跟着torch.no_grad()块内的手动参数更新，彻底暴露每一步计算。

2.2 网络架构为何锁定为DCGAN变体？

标题未指定具体架构，但“From Scratch”隐含了对可复现性与教学价值的双重要求。我们排除了StyleGAN（参数量过大、训练成本过高）、CycleGAN（需成对数据、目标不符）、WGAN-GP（梯度惩罚引入额外超参、偏离原始GAN精神）。最终选定深度卷积GAN（DCGAN）的精简变体，原因有三：其一，结构清晰，模块正交。DCGAN将生成器拆解为“全连接层→转置卷积堆叠→Tanh输出”，判别器则是“卷积堆叠→全连接分类”，每一层的功能边界明确，便于逐层调试。其二，数学可追溯性强。所有卷积操作均可映射到离散卷积公式y[i,j] = Σ_k Σ_l x[i+k, j+l] * w[k,l]，转置卷积可理解为卷积的伴随算子（adjoint operator），其输出尺寸计算有严格公式（output_size = (input_size - 1) * stride - 2 * padding + kernel_size），不存在黑盒插值。其三，MNIST数据集天然适配。28×28灰度图无需复杂预处理，单通道输入大幅降低内存占用，使你在一台16GB内存的笔记本上，也能在2小时内完成完整训练与调试。我们对标准DCGAN做了两处关键简化：一是移除BatchNorm在生成器最后一层（易导致输出分布偏移），二是判别器输出层弃用Sigmoid，改用Logits直接计算BCE（避免双重非线性叠加带来的梯度失真）。这些取舍不是为了“炫技”，而是基于上百次实验得出的稳定经验——在纯手工实现中，少一层非线性，就少一个潜在的崩溃点。

2.3 损失函数与优化策略的底层博弈

GAN的本质是一场二人零和博弈，其数学核心是V(G,D) = E[log D(x)] + E[log(1-D(G(z)))]的极小极大优化。但直接优化此式在实践中几乎不可行，原因在于当D被充分训练时，log(1-D(G(z)))的梯度会急剧衰减（即“梯度消失”问题）。Goodfellow在原始论文中提出替代目标：最大化E[log D(G(z))]，这在数学上等价于最小化-log D(G(z))，其梯度性质更优。本项目严格遵循此替代目标，并手动实现其完整推导：

判别器损失：L_D = -mean(log(D_real) + log(1 - D_fake))
生成器损失：L_G = -mean(log(D_fake))这里D_real和D_fake是判别器输出的原始logits（未经过sigmoid），因此我们使用F.softplus(-D_real)和F.softplus(D_fake)来稳定计算log(1-sigmoid(D_fake))和log(sigmoid(D_real))，因为softplus(x) = log(1+exp(x))，且log(sigmoid(x)) = -softplus(-x)，log(1-sigmoid(x)) = -softplus(x)。这一细节看似微小，却是能否让模型稳定收敛的关键。在优化器选择上，我们放弃Adam，采用带动量的SGD（Momentum=0.5）。理由很朴素：Adam的自适应学习率在GAN初期会过度放大判别器梯度，导致D迅速“封杀”G；而固定动量的SGD，其更新方向更平滑，能迫使G在D的“火力压制”下，通过持续的小步调整，逐步学会生成有效样本。动量值设为0.5而非惯用的0.9，是为了进一步抑制震荡——在手工实现中，每一步都需可控，不能把希望寄托于“自适应”。

3. 核心模块实现与关键细节拆解

3.1 数据加载与预处理：从像素到张量的精确映射

GAN对数据分布极其敏感，预处理的任何偏差都会被放大。MNIST虽是“玩具数据集”，但其加载方式直接影响训练成败。我们绝不使用torchvision.datasets.MNIST的默认transform，而是手动实现三步精准控制：

像素值归一化至[-1, 1]区间：这是DCGAN的硬性要求。原始MNIST像素为[0, 255]，简单除以255得到[0,1]是错误的。因为生成器最后一层是Tanh激活，其输出范围恰好是[-1,1]。若数据在[0,1]，则生成器需学习一个非线性的偏移映射，徒增难度。正确做法是(x / 127.5) - 1，此变换将0→-1，255→1，完美对齐。
通道维度显式扩展：MNIST是单通道灰度图，但PyTorch卷积要求4D张量(N, C, H, W)。我们手动调用np.expand_dims(image, axis=0)，确保C=1，而非依赖框架自动广播。这避免了后续卷积核尺寸（如in_channels=1）与输入不匹配的隐式错误。
数据打乱与批处理的手工实现：摒弃DataLoader，用NumPy的np.random.shuffle对整个训练集索引数组重排，再按batch_size=128切片。这样做的好处是，你能清晰看到每个batch的起始索引、样本ID，当某batch训练异常时，可立即定位到具体哪几张图在捣鬼。例如，我们曾发现MNIST测试集中一张数字“1”的图像因扫描瑕疵，边缘存在异常高亮像素，导致该batch的D_realloss骤降，手工切片后，我们直接打印出该batch的image.max()，立刻揪出问题。

# 手工数据加载核心代码（NumPy版） def load_mnist_manual(data_dir): # 加载原始ubyte文件（非torchvision） with open(f"{data_dir}/train-images-idx3-ubyte", "rb") as f: magic, num, rows, cols = np.frombuffer(f.read(16), dtype=np.dtype('>i4')) images = np.frombuffer(f.read(), dtype=np.uint8).reshape(num, rows, cols) # 归一化至[-1, 1] images = images.astype(np.float32) images = (images / 127.5) - 1.0 # 关键！不是除以255 # 扩展通道维度，变为(N, 1, 28, 28) images = np.expand_dims(images, axis=1) # 打乱索引 indices = np.arange(len(images)) np.random.shuffle(indices) return images, indices # 批处理生成器（非DataLoader） def batch_generator(images, indices, batch_size=128): for start_idx in range(0, len(indices), batch_size): batch_indices = indices[start_idx:start_idx + batch_size] yield torch.from_numpy(images[batch_indices]).to(device)

提示：务必检查images.dtype。若为np.uint8，直接转torch.Tensor会丢失精度。必须先转np.float32，再转torch.float32，否则-1到1的归一化会因整数截断而失效。

3.2 生成器（Generator）的手工搭建：从噪声到图像的逆向工程

生成器G的目标是学习一个映射z → x，其中z是100维标准正态噪声。DCGAN的生成器本质是一个“上采样解码器”。我们将其拆解为四个手工可验证的阶段：

阶段一：全连接层（Projection）
输入z ∈ R^100，输出h ∈ R^(256×4×4)。这不是简单的nn.Linear，而是手动实现权重初始化与前向计算：

权重W用torch.nn.init.normal_(W, mean=0.0, std=0.02)初始化，这是DCGAN论文指定的标准，std=0.02能防止初始输出过大，避免Tanh饱和。
偏置b初始化为0。
前向计算：h = z @ W.T + b。注意矩阵乘法方向，z是行向量，W是(100, 256*4*4)，故需转置。

阶段二：Reshape与BN-ReLU
将h重塑为(N, 256, 4, 4)，然后应用BatchNorm2d和ReLU。此处BatchNorm的affine=True（允许学习缩放和平移），但track_running_stats=False（不累积全局统计量），因为我们只做单步训练，无需长期均值估计。

阶段三：转置卷积堆叠（Upsampling）
共三层，每层将特征图尺寸翻倍：

Layer1:(256,4,4)→(128,8,8)，kernel_size=4, stride=2, padding=1
Layer2:(128,8,8)→(64,16,16)，同上
Layer3:(64,16,16)→(1,28,28)，kernel_size=4, stride=2, padding=1，但padding需微调为1（因2*16+2-4=30，需padding=1得28）

关键细节：转置卷积的bias必须设为True，且其初始化同样用normal_(std=0.02)。我们手动验证每层输出尺寸：out_h = (in_h - 1) * stride - 2 * padding + kernel_size，代入in_h=4, stride=2, padding=1, kernel=4，得out_h = 3*2 - 2 + 4 = 8，完全吻合。

阶段四：Tanh输出
最后一层无激活，但输出前强制torch.tanh(output)。这是硬约束，确保生成图像像素严格落在[-1,1]，与数据预处理完全一致。

# 生成器核心前向（PyTorch张量版） class Generator: def __init__(self, device): self.device = device # 手工定义所有参数 self.W_proj = torch.randn(100, 256*4*4, device=device) * 0.02 self.b_proj = torch.zeros(256*4*4, device=device) # 转置卷积核（3层） self.W_tconv1 = torch.randn(128, 256, 4, 4, device=device) * 0.02 self.b_tconv1 = torch.zeros(128, device=device) self.W_tconv2 = torch.randn(64, 128, 4, 4, device=device) * 0.02 self.b_tconv2 = torch.zeros(64, device=device) self.W_tconv3 = torch.randn(1, 64, 4, 4, device=device) * 0.02 self.b_tconv3 = torch.zeros(1, device=device) # BN参数（简化版，仅gamma/beta） self.gamma_bn1 = torch.ones(128, device=device) self.beta_bn1 = torch.zeros(128, device=device) self.gamma_bn2 = torch.ones(64, device=device) self.beta_bn2 = torch.zeros(64, device=device) def forward(self, z): # 阶段一：投影 h = torch.matmul(z, self.W_proj.T) + self.b_proj # (N, 256*4*4) h = h.view(-1, 256, 4, 4) # (N, 256, 4, 4) # 阶段二：BN + ReLU h = F.relu(self._batch_norm_2d(h, self.gamma_bn1, self.beta_bn1, 1)) # 阶段三：三层转置卷积 h = F.conv_transpose2d(h, self.W_tconv1, self.b_tconv1, stride=2, padding=1) h = F.relu(self._batch_norm_2d(h, self.gamma_bn2, self.beta_bn2, 1)) h = F.conv_transpose2d(h, self.W_tconv2, self.b_tconv2, stride=2, padding=1) h = F.relu(h) # 第三层BN省略，避免过拟合 h = F.conv_transpose2d(h, self.W_tconv3, self.b_tconv3, stride=2, padding=1) # 阶段四：Tanh return torch.tanh(h)

注意：_batch_norm_2d是手工实现的BN，仅计算当前batch的均值方差，不更新running_mean/var，代码略（核心是torch.mean(h, dim=[0,2,3], keepdim=True)）。

3.3 判别器（Discriminator）的手工实现：从图像到真假概率的判别引擎

判别器D是生成器的镜像，是一个“下采样编码器”，目标是输出一个标量logit，代表输入图像是真实样本的概率。其手工实现比生成器更具挑战性，因为涉及更多非线性与梯度流分析。

阶段一：卷积堆叠（Feature Extraction）
共四层卷积，每层将特征图尺寸减半：

Layer1:(1,28,28)→(64,14,14)，kernel=4, stride=2, padding=1
Layer2:(64,14,14)→(128,7,7)，同上
Layer3:(128,7,7)→(256,4,4)，kernel=4, stride=2, padding=1（7*2-2+4=16？错！应为stride=2, padding=0得(7-4)/2+1=3，故padding=1得(7-4+2)/2+1=4，正确）
Layer4:(256,4,4)→(512,1,1)，kernel=4, stride=1, padding=0

关键细节：所有卷积层不使用Bias（DCGAN论文要求），且第一层后不接BN（避免破坏真实数据的自然分布）。BN仅应用于第2、3层，且affine=True。

阶段二：全连接分类头（Classification Head）
将(512,1,1)展平为512维向量，再经nn.Linear(512, 1)输出logit。此处Linear的bias必须为True，且权重初始化std=0.02。

阶段三：损失计算的数值稳定化
如前所述，我们不调用BCEWithLogitsLoss，而是手工计算：

def d_loss_fn(real_logits, fake_logits): # real_logits = D(real_images), fake_logits = D(fake_images) # L_D = -mean(log(sigmoid(real_logits)) + log(1-sigmoid(fake_logits))) # 使用softplus稳定计算 loss_real = torch.mean(F.softplus(-real_logits)) # log(1-sigmoid(x)) loss_fake = torch.mean(F.softplus(fake_logits)) # log(sigmoid(x)) = -softplus(-x), 但此处是log(1-sigmoid(fake)) = softplus(fake) return loss_real + loss_fake def g_loss_fn(fake_logits): # L_G = -mean(log(sigmoid(fake_logits))) = mean(softplus(-fake_logits)) return torch.mean(F.softplus(-fake_logits))

这个softplus替换是本项目最核心的稳定技巧。softplus(x)在x很大时≈x，在x很小时≈log(1+exp(x))≈exp(x)，全程无log(0)风险。

4. 完整训练循环与动态监控体系

4.1 手工训练循环：每一步都是透明的决策点

一个“From Scratch”的训练循环，其价值不在于快，而在于每一个if、每一个for、每一个.zero_grad()都承载着明确的设计意图。以下是本项目的核心训练骨架，它被刻意拉长、注释密集，只为暴露所有决策点：

# 主训练循环（伪代码，突出逻辑节点） for epoch in range(num_epochs): # 1. 重置判别器梯度（D的优化独立于G） d_optimizer.zero_grad() # 2. 获取真实batch real_batch = next(train_loader) # 手工loader # 3. 计算D对真实的logits real_logits = discriminator(real_batch) # 4. 生成假样本 z = torch.randn(batch_size, 100, device=device) fake_batch = generator(z) # 5. 计算D对假的logits fake_logits = discriminator(fake_batch.detach()) # 关键！detach()切断G的梯度流 # 6. 计算D的损失 d_loss = d_loss_fn(real_logits, fake_logits) # 7. 反向传播（只更新D） d_loss.backward() # 8. 手工更新D参数（暴露所有细节） with torch.no_grad(): for param in discriminator.parameters(): # SGD更新：param = param - lr * param.grad param -= d_lr * param.grad # 9. 更新生成器（每1个D step后，做1个G step） g_optimizer.zero_grad() # 10. 重新计算fake_logits（因D已更新，需新判别） fake_logits_g = discriminator(generator(z)) # 注意：此处generator(z)无detach，梯度需回传 # 11. 计算G的损失 g_loss = g_loss_fn(fake_logits_g) # 12. 反向传播（只更新G） g_loss.backward() # 13. 手工更新G参数 with torch.no_grad(): for param in generator.parameters(): param -= g_lr * param.grad # 14. 动态学习率衰减（每10个epoch） if epoch % 10 == 0 and epoch > 0: d_lr *= 0.9 g_lr *= 0.9 # 15. 梯度裁剪（防爆炸） torch.nn.utils.clip_grad_norm_(discriminator.parameters(), max_norm=1.0) torch.nn.utils.clip_grad_norm_(generator.parameters(), max_norm=1.0)

提示：fake_batch.detach()是GAN训练的生死线。若不detach，D的梯度会通过fake_batch回传到G，导致D的更新同时污染了G的梯度，破坏了minimax博弈的独立性。这是初学者90%的崩溃根源。

4.2 实时监控与可视化：用数据说话，而非凭感觉

“训练中看着loss下降就以为成功了”是最大的幻觉。我们构建了四维监控体系：

维度一：损失曲线（双Y轴）
绘制D_loss（蓝色）与G_loss（红色）在同一图中。健康训练的标志是：两条线在初期剧烈震荡（D在学习，G在挣扎），约20epoch后趋于平稳，且G_loss稳定在D_loss的1.2~1.5倍（表明G尚未完全骗过D，但已具备一定能力）。若D_loss骤降至0.01而G_loss飙升，则D已过拟合，需降低D的学习率或增加dropout。

维度二：生成样本快照（Grid Visualization）
每5个epoch，用同一组固定噪声z_fixed生成16张图，拼成4×4网格。观察重点不是“像不像数字”，而是“多样性”与“连贯性”：同一z_fixed下，连续epoch的生成图是否在缓慢进化？不同z生成的图是否覆盖了0-9的多种形态？若所有图都趋同为模糊的“blob”，则是模式崩溃（Mode Collapse）的征兆。

维度三：梯度直方图（Gradient Flow Check）
在每次backward()后，手动计算所有参数的梯度范数，并绘制直方图。正常情况：梯度值集中在1e-3到1e-1区间，呈近似正态分布。若出现大量1e-6以下的梯度（死区），说明网络饱和；若出现1e2以上的尖峰，说明梯度爆炸。我们曾用此方法定位到转置卷积第三层的padding计算错误——该层梯度范数始终为0，因为输出尺寸计算错误导致conv_transpose2d返回空张量。

维度四：判别器输出分布（D's Confidence）
统计一个batch内D(real)和D(fake)的logits均值与标准差。理想状态：D(real)logits均值>2（高置信度），D(fake)logits均值<-1（低置信度），且两者标准差均>0.5（表明D在认真区分，而非武断判决）。若D(fake)均值接近0，说明G已强大到让D无法分辨，是收敛的积极信号。

# 监控代码片段 def log_metrics(epoch, d_loss, g_loss, real_logits, fake_logits, generator, z_fixed): # 绘制损失 plt.plot([epoch], [d_loss.item()], 'bo') plt.plot([epoch], [g_loss.item()], 'ro') # 生成快照 with torch.no_grad(): samples = generator(z_fixed) grid = make_grid(samples, nrow=4, normalize=True) plt.imshow(grid.permute(1,2,0).cpu()) # 梯度直方图 all_grads = [] for name, param in generator.named_parameters(): if param.grad is not None: all_grads.append(param.grad.view(-1).cpu().numpy()) plt.hist(np.concatenate(all_grads), bins=50) # D输出分布 print(f"Epoch {epoch}: D_real_mean={real_logits.mean():.3f}, D_fake_mean={fake_logits.mean():.3f}")

5. 常见问题排查与独家避坑指南

5.1 “Loss Nan”问题：不是bug，是数学在报警

这是手工GAN训练中最常遇到的“拦路虎”，90%的初学者会在此卡住一周以上。它绝非代码错误，而是浮点运算的必然结果。我们整理了完整的排查树：

现象	根本原因	定位方法	解决方案
`D_loss`第一个batch就`nan`	`log(1-D(G(z)))`中`D(G(z))`≈1，导致`log(0)`	打印`fake_logits.min()/max()`，若`min>5`，则`sigmoid(fake)`≈1	改用`softplus(fake_logits)`计算`log(1-sigmoid)`，或降低G初始权重std
`G_loss`在20epoch后突变为`nan`	`log(D(G(z)))`中`D(G(z))`≈0，`log(0)`	打印`fake_logits.min()`，若`min<-10`，则`sigmoid≈0`	在`g_loss_fn`中加入`torch.clamp(fake_logits, min=-10, max=10)`，或启用梯度裁剪
`D_loss`和`G_loss`交替`nan`	D过强，G梯度爆炸后反向污染D	监控`D`的梯度范数，若其标准差>10倍均值，则D过强	将D的学习率设为G的1/2，或在D的损失中加入`label smoothing`（将real标签设为0.9而非1.0）

实操心得：我在调试时，会在d_loss_fn开头插入assert not torch.isnan(real_logits).any()，让程序在nan出现的第一毫秒就中断，此时real_logits的值就是破案线索。比看日志快10倍。

5.2 “Mode Collapse”（模式崩溃）：生成器的“懒惰病”

症状：训练后期，生成器输出的128张图中，有100张几乎一模一样（比如全是“7”），其余28张是噪点。这不是训练不足，而是G找到了一个能“蒙混过关”的局部最优解。

深层原因分析：

判别器太弱：D无法区分细微差别，只要生成图有“数字轮廓”，就给高分，G便停止学习细节。
生成器容量过剩：256通道的转置卷积对MNIST而言是“杀鸡用牛刀”，G用少量参数就能凑出合格图，剩余参数闲置，导致优化方向单一。
噪声z的信息瓶颈：100维z中，只有前10维被有效利用，其余90维是冗余的。

三步根治法：

增强D的判别粒度：在D的最后一层卷积后，插入一个nn.Dropout2d(p=0.3)，强制D关注更多局部特征，而非整体轮廓。
削减G的通道数：将G的通道数从256→128→64→1改为128→64→32→1，降低其“作弊”能力。
注入噪声多样性：在G的输入z中，每步训练随机mask掉30%的维度（z_masked = z * (torch.rand_like(z) > 0.3)），迫使G学习更鲁棒的映射。

5.3 “Training Stuck at High Loss”：僵局背后的博弈失衡

症状：D_loss和G_loss在0.6~0.7之间横盘超过50个epoch，毫无下降趋势。这标志着minimax博弈陷入了僵持。

博弈论视角诊断：
GAN训练不是单目标优化，而是两个玩家的动态博弈。D_loss高，说明D还不会判别；G_loss高，说明G还不会生成。但二者长期不降，说明它们的“学习速度”严重不匹配。

量化诊断工具：
我们编写了一个imbalance_score函数：

def imbalance_score(d_loss, g_loss, d_grad_norm, g_grad_norm): # 计算D与G的“学习效率比” d_eff = d_loss / (d_grad_norm + 1e-8) # loss下降量 / 梯度大小 g_eff = g_loss / (g_grad_norm + 1e-8) return abs(d_eff - g_eff) / max(d_eff, g_eff)

若imbalance_score > 0.8，则严重失衡。此时，若d_eff < g_eff，说明D学得太慢，应增大D的学习率；反之则增大G的学习率。

终极平衡策略：
采用自适应步长比（Adaptive Step Ratio）：每10个epoch，计算d_loss / g_loss的移动平均。若比值>1.5，说明D太弱，下一个epoch执行2个D step + 1个G step；若比值<0.7，说明D太强，执行1个D step + 2个G step。此策略让博弈双方始终处于“旗鼓相当”的紧张状态，是突破僵局最有效的实战技巧。

5.4 “Generated Images Are Blurry”：锐度缺失的物理根源

症状：生成图有正确数字形状，但边缘发虚、笔画粘连、缺乏锐利感。这不是分辨率问题，而是频域信息丢失。

信号处理视角：
图像的锐度由高频分量（边缘、纹理）决定。DCGAN的转置卷积本质是上采样+滤波，其卷积核（通常为4×4）是一个低通滤波器，会平滑掉高频细节。

解决方案矩阵：

方法	原理	实施难度	效果
PixelShuffle上采样	用`nn.PixelShuffle`替代`conv_transpose2d`，其上采样无滤波，保留原始频谱	★★☆	中等，需重构G的上采样层
高频损失（Perceptual Loss）	在G_loss中加入VGG16的高层特征图MSE，迫使G学习语义结构	★★★★	显著，但需额外模型
锐化后处理（Post-sharpening）	训练后，对生成图应用Unsharp Masking：`sharpened = original + 0.5*(original - blurred)`	★	快速见效，但非根本解

我们推荐组合拳：在手工实现中，优先采用PixelShuffle。其原理是将通道维度拆分为空间维度，例如(N, 256, 4, 4)→(N, 64, 8, 8)，完全无卷积核参与，零平滑。只需将G的转置卷积层替换为：

# 替换前（转置卷积） h = F.conv_transpose2d(h, W, b, stride=2, padding=1) # 替换后（PixelShuffle） h = F.pixel_shuffle(h, upscale_factor=2) # 自动将C=256→C=64, H=4→H=8

此改动仅一行代码，却能让生成图的笔画锐度提升一个数量级。