当前位置：首页 > news >正文

量子神经网络回归新突破：对数比概率方法解决输出维度与梯度消失难题

news 2026/6/4 14:59:18

1. 量子神经网络回归的困境与破局思路

量子神经网络（QNN）这几年在量子机器学习领域火得不行，大家看中的就是它能在指数级大的希尔伯特空间里表示复杂函数，理论上潜力巨大。它的核心玩法，就是用参数化量子电路（PQC）作为可训练的黑盒模型，通过调整量子门旋转的角度参数，配合经典优化器（比如Adam）来学习任务。这听起来很美，但真把它当回归模型用起来，尤其是在处理现实世界那些需要同时预测多个连续值的任务时，立马就撞上了几堵实实在在的墙。

最主流的方法，是测量泡利算符（比如Pauli-Z）的期望值。简单说，就是把量子态投影到布洛赫球的某个轴上，通过多次测量得到一个介于-1到1之间的连续值，再通过缩放去拟合目标数据。这个方法在单输出任务上勉强能用，但问题也显而易见。首先，输出维度被量子比特数卡死了。一个n比特的电路，传统方法最多只能输出n个独立的泡利期望值。想预测10个特征？对不起，你得用10个量子比特，这在当前只有几十个、几百个比特的NISQ（含噪声中等规模量子）设备上，简直是奢侈。其次，输出天生有界。泡利期望值被限制在[-1, 1]之间，这意味着你必须预先知道数据的分布范围来做缩放。对于数据稀疏或者需要外推的任务（比如物理信息神经网络），这个限制非常致命，模型在边界附近会做出非常自信但完全错误的预测。最后，也是最头疼的，“贫瘠高原”问题。由于损失函数只依赖于一个或几个投影轴上的期望值，参数空间中绝大部分维度的信息被丢弃了。当电路深度增加或随机初始化时，梯度会指数级地消失，整个优化过程就像在一片平坦的高原上找路，根本不知道往哪走。

所以，传统QNN做回归，就像一个拥有巨大仓库（希尔伯特空间）的工厂，但出货口（泡利投影）又少又窄（有界），而且仓库内部的物流路径（梯度）还经常瘫痪（贫瘠高原）。这直接限制了它在多输出、无界回归这类实用场景中的应用。

那么，有没有办法不改变仓库（量子电路）本身，只是换一种更聪明的“出货”方式呢？这就是对数比概率（Log-Ratio Probabilities, LRP）方法的出发点。它跳出了泡利投影的思维定式，把目光投向了量子测量最本质的输出：概率。

一个n比特的量子电路，经过测量，会坍缩到2^n个计算基态之一，每个基态|i⟩出现的概率是p_i。这些概率值本身就在0到1之间，并且满足归一化条件 Σ p_i = 1。传统上，我们觉得这些概率因为归一化而相互依赖，不适合做独立的回归输出。但LRP方法做了一个巧妙的变换：它“牺牲”其中一个概率（比如最后一个p_{2^n}），用其他所有概率与它求对数比：ŷ_i = log(p_i / p_{2^n})。这个简单的后处理，一下子打开了新局面。

2. 对数比概率：原理、优势与实现细节

2.1 核心变换：从概率到无界输出

让我们拆解一下这个变换 ŷ_i = log(p_i / p_{2^n}) 到底带来了什么。

首先，解除边界限制。log函数的值域是整个实数域 (-∞, +∞)。因此，即使p_i和p_{2^n}都在[0,1]之间，它们的比值可以是从0到+∞的任何正数，取对数后就覆盖了整个实数轴。这意味着模型可以直接输出任意大或任意小的值，无需预先知道数据范围进行缩放，天生适合无界回归任务。

其次，实现输出解耦与维度爆炸。虽然原始概率{p_i}因为归一化而相互关联，但一旦我们固定其中一个（p_{2^n}）作为“分母”或“参考点”，剩下的2^n - 1个对数比 ŷ_i 在数学上就变成了相互独立的变量。它们之间不再有硬性的求和约束。最关键的是，输出通道的数量从n（量子比特数）一下子跃升到了2^n - 1，实现了指数级的提升。用2个量子比特，你就能得到3个独立输出；用5个量子比特，就能得到31个独立输出。这对于需要同时预测大量物理量或生成高维数据（如图像像素）的任务来说，参数和量子比特的利用效率是革命性的。

注意：这里“独立”指的是作为回归目标变量的独立性。在量子层面，基态之间当然是正交的，但电路产生的概率分布本身是一个整体。LRP变换在数学上解除了输出变量间的线性约束，使得每个ŷ_i都可以独立地拟合一个目标值，而不会因为概率和为1而相互“打架”。

2.2 架构对比：传统QNN vs. LRP-QNN

为了更直观地理解，我们可以对比一下两种架构的数据流：

传统泡利期望值QNN:

输入编码：将经典数据x通过角度编码（如RX门）映射到量子态 |ψ(θ, x)⟩。
变分演化：参数化量子电路U(θ)作用在初始态上，生成最终态。
测量与输出：对每个需要输出的量子比特测量Pauli-Z算符的期望值 ⟨Z_i⟩。对于n比特电路，最多得到n个在[-1, 1]之间的值。
后处理：对每个⟨Z_i⟩进行线性缩放：y_i = a_i * ⟨Z_i⟩ + b_i，以匹配目标数据的范围。

LRP-QNN:

输入编码：同传统方法。
变分演化：同传统方法。
测量与输出：测量量子态在每一个计算基态|i⟩上的概率p_i。这需要为每个基态进行统计，或者通过量子态层析等技术获得完整的概率分布。
后处理：选取一个基态概率作为参考（例如p_{2^n}），对其他所有概率计算对数比：ŷ_i = log(p_i / p_{2^n})，直接得到2^n - 1个无界输出。

可以看到，LRP-QNN无需改变量子电路本身，只是在经典端增加了一个极其简单的计算步骤。这种非侵入式的改进，使得它可以无缝集成到现有的QNN训练框架中。

2.3 实操要点：概率估计与数值稳定性

在实际实现中，有几个关键细节需要注意：

概率估计：我们无法直接获取精确的概率p_i。需要通过重复运行量子电路并测量，用频率来估计概率：p_i ≈ N_i / N_shots，其中N_i是测得基态|i⟩的次数，N_shots是总测量次数。测量次数越多，估计越准，但耗时也越长。
“零概率”问题：如果某个p_i的估计值为0，那么log(p_i / p_ref)会趋于负无穷，导致计算溢出。同样，如果参考概率p_ref为0，整个计算就崩了。这是必须处理的边界情况。
- 实操技巧：一个稳健的做法是给所有估计概率加上一个很小的平滑项ε（例如1e-10），即使用 log((p_i + ε) / (p_ref + ε))。这能防止数值爆炸，同时当测量次数足够多时，对结果影响微乎其微。
参考态的选择：选择哪个概率作为分母p_ref？理论上任选一个都可以。一种常见的策略是选择概率估计值通常较大的那个基态（比如全零态|0...0⟩），因为大数作分母相对更稳定。也可以在训练中动态选择当前批次中概率最大的那个态作为参考。
梯度计算：由于损失函数是基于估计概率的，我们需要计算损失对量子电路参数θ的梯度。这可以通过参数移位法则（parameter-shift rule）或自动微分（如果使用像PennyLane这样的框架）来实现。框架会自动处理从量子电路到经典概率再到对数比这一系列操作的梯度反向传播。

# 一个简化的PyTorch和PennyLane实现的LRP-QNN前向传播示例 import torch import pennylane as qml n_qubits = 2 n_shots = 1000 # 测量次数 dev = qml.device("default.qubit", wires=n_qubits, shots=n_shots) @qml.qnode(dev, interface="torch") def quantum_circuit(inputs, params): # 1. 输入编码 for i in range(n_qubits): qml.RX(inputs * params['angle_scale'][i], wires=i) # 假设简单编码 # 2. 变分层（示例） for l in range(params['n_layers']): # 单比特旋转门 for i in range(n_qubits): qml.Rot(*params['rot'][l, i], wires=i) # 纠缠层 for i in range(n_qubits-1): qml.CNOT(wires=[i, i+1]) # 3. 返回所有计算基态的概率 return qml.probs(wires=range(n_qubits)) def lrp_qnn_forward(inputs, params): # 运行量子电路，获取概率分布 # probs 形状为 (2^n_qubits,) probs = quantum_circuit(inputs, params) # 4. LRP后处理：以最后一个概率为参考 p_ref = probs[-1] + 1e-10 # 添加平滑项 log_ratios = torch.log((probs[:-1] + 1e-10) / p_ref) return log_ratios # 输出形状为 (2^n_qubits - 1,)

3. 攻克贫瘠高原：梯度泵浦与损失地貌重塑

LRP方法除了带来输出维度的提升，另一个更惊人的“副作用”是它能有效缓解贫瘠高原问题。这可以说是“买一送一”的巨大红利。为什么一个简单的对数变换能有如此效果？我们需要深入损失函数的梯度层面去看。

3.1 传统方法的梯度消失根源

在传统泡利期望值方法中，损失函数通常是均方误差：L(θ) = (⟨Z⟩ - y_true)^2。其梯度为 ∂L/∂θ_j = 2(⟨Z⟩ - y_true) * ∂⟨Z⟩/∂θ_j。问题出在∂⟨Z⟩/∂θ_j上。当量子电路较深、参数随机初始化时，量子态在布洛赫球上的分布往往近乎对称，导致期望值⟨Z⟩接近0。此时，期望值对参数的小扰动极不敏感，梯度∂⟨Z⟩/∂θ_j的方差会随着量子比特数和电路深度指数级下降，这就是贫瘠高原。

3.2 LRP方法的梯度增强机制

在LRP-QNN中，损失函数变为多输出的MSE：L(θ) = (1/(2^n-1)) * Σ_i (log(p_i/p_ref) - y_{i,true})^2。其梯度（经过推导和简化）包含形如 (1/p_i) * (∂p_i/∂θ_j) 的项。这里藏着两个关键点：

归一化约束的“维稳”作用：所有概率p_i之和为1。这意味着它们不可能同时变得非常小。当一个p_i减小时，其他概率（包括p_ref）必然会增大。这种负相关性使得梯度公式中的项很难全部抵消为零，从整体上抑制了梯度消失。
对数函数的“梯度泵浦”效应：这是最精妙的一点。即使概率p_i本身很小（比如~O(1/2^n)），导致其直接梯度∂p_i/∂θ_j也很小，但乘以因子1/p_i后，这个组合项 (1/p_i) * (∂p_i/∂θ_j) 的尺度可能被放大到O(1)量级。对数变换把一个小概率值“泵浦”成了一个有意义的梯度信号。这就像用一个杠杆放大了原本微弱的参数变化影响。

3.3 损失地貌的可视化对比

原文中的实验直观地展示了这种差异。在相同的2比特4层电路上，随机选取两个参数方向绘制损失地貌：

传统QNN：损失曲面存在大片的平坦区域（高原），梯度几乎为零，优化器极易陷入其中停滞不前。
LRP-QNN：损失曲面呈现出更陡峭、更复杂的峡谷状结构，即使在损失值较大的区域，梯度也显著非零。这为优化器提供了清晰的下降方向。

从梯度方差随电路深度变化的曲线也能清晰看到：传统方法的梯度方差指数衰减，而LRP方法的梯度方差保持稳定甚至有所增强。这意味着，使用LRP后，我们可以训练更深、更复杂的量子电路，而不用担心梯度消失。

实操心得：在实际训练中，这种梯度增强效应意味着你可以使用更大的学习率，或者更早地观察到损失下降。建议在训练初期密切监控梯度范数，与传统方法对比，你会直观感受到LRP带来的优化稳定性。不过，也正因为梯度被放大，在训练后期接近收敛时，可能需要适当降低学习率或使用学习率调度器，避免在最优解附近震荡。

4. 多元回归与不确定性量化实战

理论再美，还得看实战效果。我们用一个具体的例子来展示LRP-QNN如何执行多元回归，并进一步拓展到不确定性量化这种高级任务。

4.1 多元正弦-余弦回归实验

假设我们的任务是从一个输入变量x，同时预测三个相关的输出：y1 = sin(x), y2 = cos(x), y3 = -cos(x)。数据中加入了高斯噪声以模拟现实情况。

模型设置：我们使用一个2比特、3层的参数化量子电路。对于传统QNN，它最多只能输出2个泡利期望值（对应两个量子比特），因此它根本无法处理第三个输出y3。而对于LRP-QNN，2比特电路产生4个概率，通过LRP变换可以得到3个独立输出，正好匹配任务需求。
训练对比：
- 损失曲线：在同时预测y1和y2的任务上，LRP-QNN的损失下降速度明显快于传统QNN，并且最终收敛到更低的损失值。传统QNN的损失曲线在早期就出现了平台期。
- 预测结果：传统QNN的预测值被限制在[-1,1]之间，在数据范围之外（如x较大时）会做出明显错误但“自信”的饱和预测（预测值紧贴±1）。而LRP-QNN的预测则能很好地跟随正弦/余弦曲线的趋势，无界输出特性得到了完美体现。
- 三输出任务：传统QNN对此无能为力，而LRP-QNN虽然因为任务变复杂导致训练效率略有下降，但仍能对三个目标给出合理的回归结果。

这个实验清晰地验证了LRP-QNN在输出维度和输出范围上的双重优势。

4.2 基于深度集成的不确定性量化

在许多科学和工程应用中，仅仅给出一个预测点值是不够的，我们还需要知道这个预测的不确定性。不确定性主要分为两类：

认知不确定性：源于模型本身知识的不足，例如在训练数据稀疏的区域。可以通过训练多个模型（集成）来估计。
偶然不确定性：源于数据固有的噪声，即使拥有完美模型也无法消除。需要模型能够预测输出的分布（如均值和方差）。

LRP-QNN的多输出特性为同时估计这两种不确定性提供了一个优雅的框架。具体流程如下：

模型架构：我们训练一个集成的LRP-QNN模型。每个集成成员都是一个独立的2比特LRP-QNN。
输出映射：对于每个集成成员，我们将其多个LRP输出中的某两个，分别映射为对目标分布的均值(μ)和对数标准差(log σ)的预测。例如，ŷ1 -> μ, ŷ2 -> log σ。
损失函数：我们不再使用MSE，而是使用负对数似然损失：NLL = (1/2) * log(2πσ²) + (y_true - μ)²/(2σ²)。这个损失函数会同时优化均值预测的准确性和方差预测的合理性（方差大时惩罚小，方差小时若预测不准则惩罚大）。
不确定性分解：训练完成后，对于一个新输入x：
- 每个集成成员给出一个均值预测μ_i和一个方差预测σ_i²。
- 偶然不确定性：计算所有集成成员预测的方差的平均值，E[σ_i²]。这代表了数据噪声。
- 认知不确定性：计算所有集成成员均值预测的方差，Var[μ_i]。这代表了模型在不同初始化下的分歧程度，在数据稀疏区域会更大。
- 总不确定性：两者相加，Vartot = E[σ_i²] + Var[μ_i]。

通过这种方式，一个简单的LRP-QNN集成，就能输出一个完整的概率分布预测（假设为高斯分布），并清晰地分解不确定性的来源。这在金融风险评估、自动驾驶、科学发现等需要可靠决策的领域具有极高价值。

# 不确定性量化训练步骤伪代码 def train_lrp_qnn_ensemble(n_models, train_loader): models = [LRP_QNN() for _ in range(n_models)] optimizers = [torch.optim.Adam(m.parameters(), lr=0.1) for m in models] for epoch in range(epochs): for x_batch, y_batch in train_loader: for model, opt in zip(models, optimizers): opt.zero_grad() # 前向传播：模型输出两个值，我们解释为 mu 和 log_sigma outputs = model(x_batch) # shape: (batch_size, 2) mu, log_sigma = outputs[:, 0], outputs[:, 1] sigma = torch.exp(log_sigma) # 确保方差为正 # 计算负对数似然损失 loss = 0.5 * torch.log(2 * torch.pi * sigma**2) + \ (y_batch - mu)**2 / (2 * sigma**2) loss = loss.mean() loss.backward() opt.step() return models # 预测与不确定性计算 def predict_with_uncertainty(models, x): mus, sigmas_sq = [], [] for model in models: with torch.no_grad(): mu, log_sigma = model(x) sigma_sq = torch.exp(2 * log_sigma) mus.append(mu) sigmas_sq.append(sigma_sq) mus = torch.stack(mus) # shape: (n_models, batch_size) sigmas_sq = torch.stack(sigmas_sq) # shape: (n_models, batch_size) aleatoric_uncertainty = sigmas_sq.mean(dim=0) # 偶然不确定性 epistemic_uncertainty = mus.var(dim=0) # 认知不确定性 total_uncertainty = aleatoric_uncertainty + epistemic_uncertainty mean_prediction = mus.mean(dim=0) return mean_prediction, aleatoric_uncertainty, epistemic_uncertainty, total_uncertainty

5. 权衡、挑战与未来方向

没有一种方法是完美的，LRP-QNN在带来巨大优势的同时，也引入了新的权衡，主要是测量复杂度的增加。

传统QNN（泡利期望值）：估计一个期望值，其标准误差随测量次数N的平方根衰减，即~1/√N。要达到精度ε，需要N ~ O(1/ε²)次测量。如果要同时估计M个不互易的观测量，可能需要~O(M/ε²)次测量。
LRP-QNN：我们需要估计所有2^n个基态的概率。在最坏情况（所有概率均等，p_i ≈ 1/2^n）下，估计单个概率的标准误差约为√(p_i(1-p_i)/N) ~ 1/√(2^n N)。通过误差传播公式，对数比ŷ_i的标准误差约为√(2^n/N)。因此，要达到精度ε，需要N ~ O(2^n/ε²)次测量。

由于最大输出数M = 2^n - 1，所以LRP-QNN所需的测量次数N_LRP通常大于传统多输出QNN的N_exp。这是一个用更多的测量次数（即更长的运行时间），来换取更少的量子比特和电路参数的经典权衡。

重要提示：这个权衡在当前NISQ时代具有特殊意义。量子比特是极其稀缺的资源，增加比特数带来的硬件复杂度和错误率提升是指数级的。而增加测量次数主要影响的是运行时间。在许多实验系统中，特别是光量子计算平台，单次电路运行（前向传播）的速度可以非常快。因此，在比特数受限但允许大量重复测量的硬件上，LRP-QNN是一种非常务实且高效的选择。它允许我们用很小的量子处理器（例如4-8个比特）去处理需要数十甚至上百个输出维度的任务，这在传统架构下是不可想象的。

除了测量开销，还有一些开放性的挑战和未来方向：

噪声环境下的鲁棒性：当前研究是在无噪声的仿真环境中进行的。真实的量子设备存在门误差、测量误差和退相干噪声。已知噪声本身也会诱发贫瘠高原。LRP方法在含噪声环境中的表现，其误差传播特性，以及是否需要结合误差缓解技术，是下一步需要重点评估的。
参考态的选择策略：如何智能地选择分母p_ref？动态选择（如选择最大概率态）是否比固定选择（如全零态）更优？不同的选择对训练稳定性和收敛速度有何影响？
扩展到混合密度预测：目前的不确定性量化假设输出是单峰高斯分布。利用LRP-QNN的多个输出，完全可以将其扩展为混合密度网络，预测多模态的复杂分布，这对于处理更复杂的真实世界数据（如具有多个可能解的系统）至关重要。
与经典层的深度融合：LRP-QNN可以作为强大的量子特征提取器，其输出的高维、无界特征向量可以输入到经典神经网络中进行进一步处理，构建更强大的量子-经典混合模型。

我个人在尝试复现和拓展这类模型时的体会是，LRP方法的核心魅力在于其“简单而深刻”。它没有去设计复杂的新电路结构，而是重新审视了量子计算最基本的输出——概率，并通过一个数学上简洁的变换，同时解决了输出维度、有界性和训练稳定性多个痛点。这种基于第一性原理的改进，往往比堆砌复杂模块更有效，也更容易在现有的软件栈（如PennyLane, Qiskit）中快速实现和验证。对于想要在近期量子硬件上探索实用化量子机器学习的从业者来说，这无疑是一个值得放入工具箱的利器。

查看全文

http://www.cnnetsun.cn/news/2749543.html