当前位置：首页 > news >正文

别再死记公式了！用Python从零推导极大似然估计，理解Diffusion Model的核心

news 2026/6/3 14:10:55

从红黑球到Diffusion Model：Python实战极大似然估计

假设你面前有一个不透明的箱子，里面装着红黑两种颜色的球。你被告知其中一种颜色的球有10个，另一种只有1个——但不知道具体哪种颜色占多数。现在你随机摸出一个球，是红色的。此刻你会如何猜测箱子里红球和黑球的数量分布？这个看似简单的选择背后，隐藏着统计学中一个强大的工具——极大似然估计(Maximum Likelihood Estimation, MLE)的核心思想。

对于机器学习实践者而言，理解MLE不仅是为了应付考试，更是打开生成式AI模型（如当前热门的Diffusion Model）数学原理的钥匙。本文将带你用Python从零推导MLE，最终揭示它与Diffusion Model训练目标的深刻联系。我们将避开枯燥的公式背诵，通过代码实现和可视化，让这些抽象概念变得触手可及。

1. 从红黑球问题理解似然原理

让我们从开头的红黑球例子开始，用Python建立一个简单的模拟环境。这个例子虽然简单，却包含了MLE的所有关键要素：一个概率模型（箱子里球的分布）、观察到的数据（摸出的球颜色），以及需要估计的参数（红黑球的具体数量）。

import numpy as np from collections import Counter import matplotlib.pyplot as plt # 定义两种可能的箱子配置 box_configurations = [ {'red': 10, 'black': 1}, # 假设1: 10红1黑 {'red': 1, 'black': 10} # 假设2: 1红10黑 ] # 模拟从箱子中抽样 def draw_ball(box): balls = [] for color, count in box.items(): balls.extend([color] * count) return np.random.choice(balls) # 进行100次抽样实验 results = [] for _ in range(100): box = box_configurations[0] # 假设真实情况是10红1黑 results.append(draw_ball(box)) # 统计结果 result_counts = Counter(results) print(f"红球出现次数: {result_counts['red']}, 黑球出现次数: {result_counts['black']}")

运行这段代码，你会发现红球出现的频率远高于黑球（约90% vs 10%）。这正是"似然"概念的直观体现——在假设箱子是10红1黑的情况下，我们观察到红球的概率更高。反过来，如果我们观察到红球，也有理由认为箱子更可能是10红1黑。

似然函数的数学定义是：给定参数θ时，观察到当前数据D的概率，记作L(θ|D)。在我们的例子中：

θ代表箱子配置（10红1黑或1红10黑）
D代表观察到的数据（比如连续3次摸到红球）

我们可以计算两种假设下的似然值：

def likelihood(box, observed_data): total_balls = sum(box.values()) prob = 1.0 for color in observed_data: prob *= box[color] / total_balls return prob # 观察3次红球 observed_data = ['red', 'red', 'red'] likelihood_10r1b = likelihood(box_configurations[0], observed_data) likelihood_1r10b = likelihood(box_configurations[1], observed_data) print(f"假设10红1黑的似然值: {likelihood_10r1b:.4f}") print(f"假设1红10黑的似然值: {likelihood_1r10b:.4f}")

运行结果会显示，10红1黑假设下的似然值远高于另一种假设。这就是极大似然估计的核心——选择使观察数据出现概率最大的参数值。

2. 连续型变量的极大似然估计

现实中的问题往往比红黑球复杂得多。让我们考虑一个更实际的例子：估计指数分布的参数λ。假设我们有一组设备故障间隔时间的数据，想要估计故障率参数λ。

指数分布的概率密度函数为： f(x|λ) = λe^(-λx) (x ≥ 0)

给定一组观测数据X = {x₁, x₂, ..., xₙ}，似然函数为： L(λ|X) = ∏ λe^(-λxᵢ) = λⁿ e^(-λ∑xᵢ)

通常我们会使用对数似然函数，因为乘积转换为求和更易处理： ln L(λ|X) = n ln λ - λ ∑xᵢ

让我们用Python实现这个过程：

# 生成模拟数据 np.random.seed(42) true_lambda = 0.5 sample_size = 100 data = np.random.exponential(scale=1/true_lambda, size=sample_size) # 定义对数似然函数 def log_likelihood(lambda_, data): n = len(data) return n * np.log(lambda_) - lambda_ * np.sum(data) # 在多个lambda值上计算对数似然 lambdas = np.linspace(0.1, 1.0, 100) log_likelihoods = [log_likelihood(l, data) for l in lambdas] # 可视化 plt.figure(figsize=(10, 6)) plt.plot(lambdas, log_likelihoods) plt.axvline(x=true_lambda, color='r', linestyle='--', label='True λ') plt.xlabel('λ') plt.ylabel('Log-Likelihood') plt.title('Log-Likelihood Function for Exponential Distribution') plt.legend() plt.show()

通过求导并令导数为零，我们可以得到λ的MLE估计： ∂lnL/∂λ = n/λ - ∑xᵢ = 0 ⇒ λ̂ = n/∑xᵢ = 1/mean(X)

# 计算MLE估计 lambda_mle = 1 / np.mean(data) print(f"真实λ值: {true_lambda:.4f}") print(f"MLE估计的λ值: {lambda_mle:.4f}")

这个例子展示了MLE在连续型分布参数估计中的应用。同样的原理可以扩展到更复杂的分布和模型。

3. MLE与机器学习模型的联系

在机器学习中，MLE扮演着核心角色。许多模型的训练过程本质上就是在进行极大似然估计。让我们以线性回归为例，揭示其与MLE的联系。

传统的最小二乘法可以看作是在噪声服从正态分布假设下的MLE。假设模型为： y = wᵀx + ε, ε ∼ N(0, σ²)

那么y|x ∼ N(wᵀx, σ²)，对数似然函数为： ln L(w, σ²|X,y) = -n/2 ln(2πσ²) - 1/(2σ²) ∑(yᵢ - wᵀxᵢ)²

最大化这个对数似然函数等价于最小化残差平方和，即最小二乘法。

from sklearn.linear_model import LinearRegression from scipy.stats import norm # 生成线性回归数据 np.random.seed(42) n_samples = 100 X = np.random.rand(n_samples, 1) * 10 true_w = 2.5 y = true_w * X.squeeze() + np.random.normal(0, 2, n_samples) # 定义对数似然函数 def linear_regression_log_likelihood(w, X, y, sigma=2): residuals = y - X.dot(w) n = len(y) return -n/2 * np.log(2*np.pi*sigma**2) - 1/(2*sigma**2) * np.sum(residuals**2) # 计算不同w值下的对数似然 w_values = np.linspace(1, 4, 100) X_with_intercept = np.c_[np.ones(len(X)), X] # 添加截距项 log_likelihoods = [linear_regression_log_likelihood(np.array([0, w]), X_with_intercept, y) for w in w_values] # 可视化 plt.figure(figsize=(10, 6)) plt.plot(w_values, log_likelihoods) plt.axvline(x=true_w, color='r', linestyle='--', label='True w') plt.xlabel('w') plt.ylabel('Log-Likelihood') plt.title('Log-Likelihood for Linear Regression') plt.legend() plt.show() # 使用sklearn拟合线性回归 model = LinearRegression().fit(X, y) print(f"真实斜率: {true_w:.4f}") print(f"最小二乘估计斜率: {model.coef_[0]:.4f}")

这个例子展示了如何从概率角度理解线性回归，以及MLE如何为模型训练提供理论基础。同样的原理可以扩展到更复杂的模型，包括我们接下来要讨论的Diffusion Model。

4. 从MLE到Diffusion Model：最小化KL散度

Diffusion Model作为当前最先进的生成模型之一，其训练目标与MLE有着深刻联系。理解这一联系需要先了解KL散度（Kullback-Leibler divergence），它衡量两个概率分布之间的差异。

KL散度定义为： Dₖₗ(P‖Q) = ∫ p(x) log(p(x)/q(x)) dx

有趣的是，最大化似然函数等价于最小化真实数据分布P和模型分布Qθ之间的KL散度：

argmaxθ E_{x∼P}[log qθ(x)] = argminθ Dₖₗ(P‖Qθ)

让我们用Python演示这一等价关系：

# 假设有两个正态分布 x = np.linspace(-5, 5, 1000) p = norm.pdf(x, loc=0, scale=1) # 真实分布N(0,1) q = norm.pdf(x, loc=1, scale=1.5) # 模型分布N(1,1.5) # 计算KL散度(P||Q) kl_divergence = np.sum(p * np.log(p / q)) * (x[1] - x[0]) # 离散近似 # 计算对数似然 samples_from_p = np.random.normal(0, 1, 1000) log_likelihood = np.sum(norm.logpdf(samples_from_p, loc=1, scale=1.5)) print(f"KL散度: {kl_divergence:.4f}") print(f"负对数似然: {-log_likelihood:.4f}")

在Diffusion Model中，训练过程实际上是在最小化前向过程与反向过程之间的KL散度。具体来说：

前向过程逐步向数据添加噪声，将数据分布转化为简单的高斯分布
反向过程学习逐步去噪，从噪声中重建数据
训练目标是最小化每一步前向分布与反向分布之间的KL散度

这种KL散度最小化的视角揭示了Diffusion Model与MLE的内在一致性。虽然实际实现涉及更多技巧（如重参数化、噪声预测等），但核心思想仍然是极大似然原则的延伸。

5. 实战：用MLE思想理解Diffusion训练

为了更好地理解这一联系，让我们实现一个简化的Diffusion Model训练过程。我们将重点关注其中的MLE思想，而非完整的模型实现。

假设我们有一维数据，来自两个高斯分布的混合：

# 生成混合高斯数据 np.random.seed(42) data = np.concatenate([ np.random.normal(-3, 1, 500), np.random.normal(3, 1, 500) ]) # 定义前向过程 - 逐步添加噪声 def forward_process(x0, t, num_steps=100, beta_start=1e-4, beta_end=0.02): betas = np.linspace(beta_start, beta_end, num_steps) alphas = 1 - betas alpha_bars = np.cumprod(alphas) noise = np.random.randn(*x0.shape) xt = np.sqrt(alpha_bars[t]) * x0 + np.sqrt(1 - alpha_bars[t]) * noise return xt # 可视化前向过程 plt.figure(figsize=(12, 6)) for t in [0, 20, 50, 80, 99]: xt = forward_process(data, t) plt.hist(xt, bins=50, alpha=0.5, label=f't={t}') plt.legend() plt.title('Forward Process (Adding Noise)') plt.show()

反向过程的目标是学习去噪，这可以表述为最大化似然。在实践中，我们训练一个网络εθ来预测噪声：

import torch import torch.nn as nn # 简单的噪声预测网络 class NoisePredictor(nn.Module): def __init__(self): super().__init__() self.net = nn.Sequential( nn.Linear(1, 64), nn.ReLU(), nn.Linear(64, 64), nn.ReLU(), nn.Linear(64, 1) ) def forward(self, x, t): # 简单起见，这里忽略了时间步t的嵌入 return self.net(x) # 训练过程（简化版） model = NoisePredictor() optimizer = torch.optim.Adam(model.parameters(), lr=1e-3) # 将数据转换为PyTorch tensor data_tensor = torch.FloatTensor(data).unsqueeze(1) for epoch in range(1000): optimizer.zero_grad() # 随机选择时间步 t = torch.randint(0, 100, (len(data), 1)).float() # 前向过程添加噪声 alpha_bars = torch.linspace(1, 0.01, 100)[t.long()] noise = torch.randn_like(data_tensor) xt = torch.sqrt(alpha_bars) * data_tensor + torch.sqrt(1 - alpha_bars) * noise # 预测噪声 pred_noise = model(xt, t) # 损失函数 - 相当于最大化似然 loss = nn.MSELoss()(pred_noise, noise) loss.backward() optimizer.step() if epoch % 100 == 0: print(f'Epoch {epoch}, Loss: {loss.item():.4f}')

这个简化的训练过程实际上是在最大化数据的似然，通过最小化预测噪声与真实噪声之间的差异（这等价于最小化KL散度）。完整的Diffusion Model会涉及更复杂的架构和技巧，但核心的MLE思想保持不变。

理解MLE与KL散度的这种联系，为我们提供了一把钥匙，可以解锁许多现代生成模型的数学基础。从简单的红黑球例子到复杂的Diffusion Model，极大似然估计的思想贯穿始终，展示了统计理论的强大普适性。

查看全文

http://www.cnnetsun.cn/news/2729221.html