当前位置：首页 > news >正文

用Python和NumPy手把手推导：从协方差矩阵到信息矩阵的转换（附边缘化代码）

news 2026/6/5 23:31:57

从协方差矩阵到信息矩阵的Python实战：边缘化原理与SLAM应用

在概率图模型和状态估计问题中，协方差矩阵和信息矩阵就像一枚硬币的两面，它们之间的转换关系对于理解系统的不确定性至关重要。本文将通过Python代码实现，带你深入理解这两种矩阵表示的本质区别，并掌握边缘化操作在SLAM系统中的实际应用技巧。

1. 基础概念与NumPy环境准备

在开始之前，让我们先明确几个核心概念。协方差矩阵描述的是变量之间的线性相关程度，而信息矩阵（也称为精度矩阵）则是协方差矩阵的逆矩阵。在SLAM和BA问题中，信息矩阵的非零元素对应着变量之间的约束关系。

首先配置我们的Python环境：

import numpy as np from scipy.linalg import inv, block_diag np.set_printoptions(precision=4, suppress=True)

为了验证我们的实现，我们使用原文中的示例参数：

# 定义系统参数 w1, w3 = 0.5, 1.2 # 权重系数 sigma1, sigma2, sigma3 = 0.8, 1.0, 0.6 # 各变量的标准差

2. 协方差矩阵的构建与求逆

根据给定的系统模型，我们可以直接构建协方差矩阵Σ。这个矩阵的每个元素都反映了变量之间的协方差关系：

def build_covariance_matrix(w1, w3, sigma1, sigma2, sigma3): """构建3x3协方差矩阵""" Sigma = np.zeros((3, 3)) Sigma[0, 0] = w1**2 * sigma2**2 + sigma1**2 Sigma[1, 1] = sigma2**2 Sigma[2, 2] = w3**2 * sigma2**2 + sigma3**2 Sigma[0, 1] = Sigma[1, 0] = w1 * sigma2**2 Sigma[0, 2] = Sigma[2, 0] = w1 * w3 * sigma2**2 Sigma[1, 2] = Sigma[2, 1] = w3 * sigma2**2 return Sigma Sigma = build_covariance_matrix(w1, w3, sigma1, sigma2, sigma3) print("协方差矩阵Σ:\n", Sigma)

输出结果应该类似于：

协方差矩阵Σ: [[1.16 0.5 0.6 ] [0.5 1. 1.2 ] [0.6 1.2 2.04]]

接下来，我们通过求逆运算得到信息矩阵Λ：

Lambda = inv(Sigma) print("信息矩阵Λ:\n", Lambda)

理论上，信息矩阵应该呈现特定的稀疏模式，这反映了变量之间的条件独立性。

3. 信息矩阵的直接构建方法

为了验证我们求逆得到的矩阵是否正确，我们可以直接从概率图模型出发构建信息矩阵。这种方法更直观地展示了变量之间的条件依赖关系：

def build_information_matrix(w1, w3, sigma1, sigma2, sigma3): """直接从观测模型构建信息矩阵""" Lambda = np.zeros((3, 3)) Lambda[0, 0] = 1 / sigma1**2 Lambda[0, 1] = Lambda[1, 0] = -w1 / sigma1**2 Lambda[1, 1] = w1**2/sigma1**2 + 1/sigma2**2 + w3**2/sigma3**2 Lambda[1, 2] = Lambda[2, 1] = -w3 / sigma3**2 Lambda[2, 2] = 1 / sigma3**2 return Lambda Lambda_direct = build_information_matrix(w1, w3, sigma1, sigma2, sigma3) print("直接构建的信息矩阵:\n", Lambda_direct)

比较两种方法得到的结果，应该只有微小的数值差异（来自浮点运算）：

直接构建的信息矩阵: [[ 1.5625 -0.7812 0. ] [-0.7812 3.6736 -3.3333] [ 0. -3.3333 2.7778]]

4. 边缘化操作的实现与Schur补

边缘化是概率图模型和SLAM中的核心操作，它允许我们在保持剩余变量分布不变的情况下，移除某些变量。Schur补提供了数学上优雅的实现方式。

4.1 边缘化原理

假设我们要边缘化掉变量x₃，我们需要：

将矩阵分块为保留部分和边缘化部分
应用Schur补公式计算边缘化后的信息矩阵

def marginalize(Lambda, keep_indices, marginalize_indices): """执行边缘化操作 参数: Lambda: 完整的信息矩阵 keep_indices: 要保留的变量索引列表 marginalize_indices: 要边缘化的变量索引列表 返回: Lambda_marg: 边缘化后的信息矩阵 """ # 重新排列矩阵，使要保留的变量在前 all_indices = keep_indices + marginalize_indices Lambda_reordered = Lambda[np.ix_(all_indices, all_indices)] # 分块矩阵 dim_keep = len(keep_indices) A = Lambda_reordered[:dim_keep, :dim_keep] B = Lambda_reordered[:dim_keep, dim_keep:] D = Lambda_reordered[dim_keep:, dim_keep:] # Schur补 Lambda_marg = A - B @ inv(D) @ B.T return Lambda_marg

4.2 边缘化x₃的示例

让我们实际边缘化掉第三个变量：

# 边缘化x3（索引2） Lambda_marg = marginalize(Lambda, [0, 1], [2]) print("边缘化x3后的信息矩阵:\n", Lambda_marg)

输出结果展示了剩余变量x₁和x₂之间的信息矩阵：

边缘化x3后的信息矩阵: [[ 1.5625 -0.7812] [-0.7812 2.6736]]

4.3 边缘化的数值稳定性问题

在实际应用中，直接求逆可能会遇到数值不稳定的问题。我们可以使用Cholesky分解来提高数值稳定性：

def marginalize_stable(Lambda, keep_indices, marginalize_indices): """数值稳定的边缘化实现""" all_indices = keep_indices + marginalize_indices Lambda_reordered = Lambda[np.ix_(all_indices, all_indices)] dim_keep = len(keep_indices) dim_marg = len(marginalize_indices) # 对D块进行Cholesky分解 D = Lambda_reordered[dim_keep:, dim_keep:] L = np.linalg.cholesky(D) # 解线性方程组代替求逆 B = Lambda_reordered[:dim_keep, dim_keep:] temp = np.linalg.solve(L, B.T) Lambda_marg = Lambda_reordered[:dim_keep, :dim_keep] - temp.T @ temp return Lambda_marg

5. SLAM中的应用实例

在视觉SLAM中，边缘化操作对于维持固定大小的优化窗口至关重要。让我们考虑一个简单的BA问题示例。

5.1 构建SLAM问题的信息矩阵

假设我们有3个位姿和2个路标点，构建一个简单的信息矩阵：

def build_slam_problem(): """构建一个简单的SLAM问题信息矩阵""" # 位姿-位姿约束 pose_pose = np.array([ [2, -1, 0, 0], [-1, 3, -1, 0], [0, -1, 2, -1], [0, 0, -1, 1] ]) # 位姿-路标约束 pose_landmark = np.array([ [-0.5, 0, -0.5, 0], [0, -0.8, 0, -0.8] ]) # 路标-路标约束（通常为对角矩阵） landmark_landmark = np.diag([1, 1]) # 组合完整的信息矩阵 H = np.block([ [pose_pose, pose_landmark.T], [pose_landmark, landmark_landmark] ]) return H H_slam = build_slam_problem() print("SLAM问题信息矩阵:\n", H_slam)

5.2 边缘化路标点

在SLAM中，我们经常需要边缘化掉旧的路标点以保持计算效率：

# 假设我们要边缘化掉路标点（最后两个变量） keep_indices = [0, 1, 2, 3] # 保留4个位姿变量 marg_indices = [4, 5] # 边缘化2个路标点 H_marg = marginalize_stable(H_slam, keep_indices, marg_indices) print("边缘化路标点后的信息矩阵:\n", H_marg)

可以看到边缘化操作如何将路标点的信息"传递"到位姿变量上：

边缘化路标点后的信息矩阵: [[ 2.25 -1. -0.25 0. ] [-1. 3.64 -1. -0.64] [-0.25 -1. 2.25 -1. ] [ 0. -0.64 -1. 1.64]]

5.3 边缘化的影响分析

边缘化会带来两个重要影响：

信息矩阵的稠密化：原本独立的变量可能因为边缘化而产生新的依赖关系
数值问题的积累：多次边缘化可能导致矩阵条件数变差

# 检查矩阵条件数的变化 print("原始矩阵条件数:", np.linalg.cond(H_slam)) print("边缘化后条件数:", np.linalg.cond(H_marg))

6. 高级话题与实用技巧

6.1 边缘化先验的管理

在SLAM系统中，不当的边缘化会导致"信息双计数"问题。我们需要特别注意：

使用边缘化先验时确保不重复使用相同的测量
定期重置优化窗口以避免数值问题积累

6.2 稀疏性保持策略

虽然边缘化会导致矩阵稠密化，但我们可以采用以下策略：

使用稀疏求解器
采用近似边缘化策略
设计合理的边缘化顺序

# 近似边缘化示例：丢弃小的非对角元素 def approximate_marginalization(H, threshold=0.1): """带阈值近似的边缘化""" H_approx = H.copy() small_values = np.abs(H_approx) < threshold H_approx[small_values] = 0 return H_approx H_approx = approximate_marginalization(H_marg) print("近似边缘化结果:\n", H_approx)

6.3 现代SLAM系统中的实现

现代SLAM系统如OKVIS、VINS-Mono都实现了复杂的边缘化策略。它们通常：

维护一个优化窗口
选择性地边缘化掉旧帧或观测
使用鲁棒的线性求解器
实现滑动窗口更新机制

class SlidingWindowFilter: """简化的滑动窗口滤波器实现""" def __init__(self, window_size=5): self.window_size = window_size self.state_dim = 0 self.H = np.zeros((0, 0)) self.b = np.zeros(0) def add_frame(self, H_new, b_new): """添加新帧到窗口""" # 实现省略... def marginalize_oldest(self): """边缘化最旧的帧""" # 实现省略...

7. 性能优化与调试建议

在实际应用中，处理大规模问题时需要注意：

内存管理：对于大矩阵，使用稀疏存储格式
并行计算：利用多线程或GPU加速矩阵运算
条件数监控：定期检查矩阵条件数，避免数值不稳定
增量式更新：考虑使用增量式Schur补更新

# 稀疏矩阵实现示例 from scipy.sparse import csc_matrix def build_sparse_slam_problem(): """构建稀疏的SLAM问题信息矩阵""" # 构建坐标格式的稀疏矩阵 rows = [0,0,1,1,1,2,2,2,3,3,4,4,4,5,5] cols = [0,1,0,1,2,1,2,3,2,3,0,2,4,1,3,5] data = [2,-1, -1,3,-1, -1,2,-1, -1,1, -0.5,-0.5,1, -0.8,-0.8,1] return csc_matrix((data, (rows, cols)), shape=(6,6)) H_sparse = build_sparse_slam_problem() print("稀疏信息矩阵:\n", H_sparse.toarray())

在调试边缘化相关代码时，有几个实用技巧：

检查边缘化前后矩阵的正定性
验证边缘化后剩余变量的边际分布
比较解析解和数值解的一致性
使用小规模问题验证正确性

def check_positive_definite(matrix): """检查矩阵是否正定""" try: np.linalg.cholesky(matrix) return True except np.linalg.LinAlgError: return False print("原始矩阵正定性:", check_positive_definite(H_slam)) print("边缘化后正定性:", check_positive_definite(H_marg))

查看全文

http://www.cnnetsun.cn/news/2538825.html