当前位置：首页 > news >正文

从‘一致对’到p值：手把手推导肯德尔相关系数，并用NumPy复现scipy的kendalltau

news 2026/6/3 10:05:39

从数学原理到代码实现：深入解析肯德尔相关系数及其Python实践

在数据分析领域，我们常常需要衡量两个变量之间的关联程度。当数据不满足正态分布假设或存在大量并列排位时，传统的皮尔逊相关系数可能不再适用。这时，基于秩次的非参数统计方法——肯德尔相关系数就显示出其独特价值。本文将带你从最基础的数学概念出发，逐步构建对肯德尔相关系数的完整理解，并最终用纯NumPy实现这一算法。

1. 秩相关的基本概念与肯德尔系数的优势

秩相关系数是统计学中用于衡量两个变量单调关系强度的指标，它不依赖于原始数据的数值大小，而是基于数据的排序位置（秩次）进行计算。与皮尔逊相关系数相比，秩相关系数对异常值不敏感，适用于非正态分布数据，能够捕捉非线性但单调的关系。

肯德尔相关系数（Kendall's tau）由Maurice Kendall在1938年提出，它通过比较数据对的一致性来评估变量间的关联。具体来说，对于n个观测值，我们可以形成C(n,2)个数据对，每个数据对在X和Y变量上要么是一致的（concordant），要么是不一致的（discordant）。

肯德尔系数的三大优势：

对数据分布没有严格要求，适用于各种类型的有序数据
能够很好地处理并列排位（tied ranks）的情况
解释直观：系数为1表示完全一致，-1表示完全相反，0表示无关联

实际应用中，当数据中存在大量相同值时（如评分数据、排名数据），肯德尔相关系数通常比斯皮尔曼相关系数更为可靠。

2. 一致对与分歧对：肯德尔系数的核心概念

理解肯德尔相关系数的关键在于掌握"一致对"和"分歧对"的概念。让我们通过一个具体例子来说明：

假设我们有以下数据集：

X = [3, 5, 1, 9, 7] Y = [5, 3, 2, 6, 8]

我们可以列出所有可能的数据对（共C(5,2)=10对）并判断它们的一致性：

数据对	X比较	Y比较	类型
(1,2)	3<5	5>3	分歧对
(1,3)	3>1	5>2	一致对
(1,4)	3<9	5<6	一致对
(1,5)	3<7	5<8	一致对
(2,3)	5>1	3>2	一致对
(2,4)	5<9	3<6	一致对
(2,5)	5<7	3<8	一致对
(3,4)	1<9	2<6	一致对
(3,5)	1<7	2<8	一致对
(4,5)	9>7	6<8	分歧对

在这个例子中，我们有8个一致对和2个分歧对。肯德尔tau-a系数的计算公式为：

τ = (一致对数 - 分歧对数) / 总对数 = (8 - 2) / 10 = 0.6

3. 肯德尔系数的变体：Tau-a与Tau-b

3.1 Tau-a系数

Tau-a是最基础的肯德尔相关系数，适用于没有并列排位的情况。其公式为：

τₐ = (c - d) / (n(n-1)/2)

其中：

c：一致对数
d：分歧对数
n：样本量

3.2 Tau-b系数

当数据中存在并列排位时，Tau-a可能会低估相关性。Tau-b系数通过调整分母来解决这个问题：

τ_b = (c - d) / √[(c+d+tₓ)(c+d+t_y)]

其中：

tₓ：仅在X变量上有并列的对数
t_y：仅在Y变量上有并列的对数

注意：同时出现在X和Y上的并列对既不计入tₓ也不计入t_y

4. 用NumPy实现肯德尔相关系数

现在，我们将用纯NumPy实现肯德尔tau-b系数，完整处理并列排位的情况。以下是分步实现：

import numpy as np def kendall_tau(x, y): """计算肯德尔tau-b相关系数""" assert len(x) == len(y), "x和y长度必须相同" n = len(x) c = 0 # 一致对数 d = 0 # 分歧对数 t_x = 0 # 仅在x上并列的对数 t_y = 0 # 仅在y上并列的对数 # 遍历所有数据对 for i in range(n): for j in range(i+1, n): x_diff = x[i] - x[j] y_diff = y[i] - y[j] product = x_diff * y_diff if product > 0: c += 1 elif product < 0: d += 1 else: # 至少有一个差为0 if x_diff == 0 and y_diff != 0: t_x += 1 elif x_diff != 0 and y_diff == 0: t_y += 1 # 计算tau-b denominator = np.sqrt((c + d + t_x) * (c + d + t_y)) tau_b = (c - d) / denominator if denominator != 0 else 0 return tau_b

实现解析：

我们使用双重循环遍历所有数据对(i,j)，其中i<j以避免重复计算
计算每对数据在X和Y上的差值
根据差值的乘积判断是一致对、分歧对还是并列对
特别处理仅在X或Y上并列的情况
最后应用tau-b公式计算结果

让我们测试这个实现：

x = np.array([3, 5, 1, 6, 7, 2, 8, 8, 4]) y = np.array([5, 3, 2, 6, 8, 1, 7, 8, 4]) print("我们的实现:", kendall_tau(x, y)) from scipy.stats import kendalltau print("SciPy结果:", kendalltau(x, y).correlation)

输出应该类似于：

我们的实现: 0.6857142857142857 SciPy结果: 0.6857142857142857

5. 性能优化与向量化实现

前面的实现使用了双重循环，时间复杂度为O(n²)，对于大数据集可能较慢。我们可以利用NumPy的向量化操作进行优化：

def kendall_tau_vectorized(x, y): """向量化实现的肯德尔tau-b""" n = len(x) x = np.asarray(x).reshape(-1, 1) y = np.asarray(y).reshape(-1, 1) # 计算所有两两差值 x_diff = x - x.T y_diff = y - y.T # 获取上三角矩阵（i<j） mask = np.triu(np.ones((n, n)), k=1).astype(bool) x_diff = x_diff[mask] y_diff = y_diff[mask] # 计算各类对数 product = x_diff * y_diff c = np.sum(product > 0) d = np.sum(product < 0) # 处理并列情况 x_zero = (x_diff == 0) y_zero = (y_diff == 0) t_x = np.sum(x_zero & ~y_zero) t_y = np.sum(~x_zero & y_zero) # 计算tau-b denominator = np.sqrt((c + d + t_x) * (c + d + t_y)) tau_b = (c - d) / denominator if denominator != 0 else 0 return tau_b

性能对比：

import time # 生成大数据集 np.random.seed(42) large_x = np.random.randint(1, 100, 500) large_y = np.random.randint(1, 100, 500) # 测试循环实现 start = time.time() kendall_tau(large_x, large_y) print(f"循环实现耗时: {time.time()-start:.4f}秒") # 测试向量化实现 start = time.time() kendall_tau_vectorized(large_x, large_y) print(f"向量化实现耗时: {time.time()-start:.4f}秒")

在500个数据点的测试中，向量化实现通常比循环实现快10倍以上。不过要注意，向量化实现会消耗更多内存，因为需要存储所有两两差值的矩阵。

6. p值的计算原理与实现

在实际应用中，我们不仅需要相关系数本身，还需要评估这个相关性是否显著。肯德尔相关系数的p值通常通过以下两种方法计算：

精确排列检验：对于小样本（n≤10），可以计算所有可能的排列组合
正态近似：对于大样本，肯德尔系数的抽样分布近似正态分布

以下是正态近似法的Python实现：

def kendall_tau_with_p(x, y): """计算肯德尔tau-b及其p值（正态近似）""" tau = kendall_tau_vectorized(x, y) n = len(x) if n <= 10: raise ValueError("样本量过小，建议使用精确排列检验") # 计算标准差 sigma = np.sqrt(2*(2*n + 5)) / (3*np.sqrt(n*(n-1))) # 计算z值 z = tau / sigma # 计算双尾p值 from scipy.stats import norm p = 2 * (1 - norm.cdf(abs(z))) return tau, p

**置换检验（Permutation Test）**是另一种计算p值的方法，特别适用于样本量不大的情况。其基本思路是：

随机打乱其中一个变量的顺序多次（如10000次）
每次计算肯德尔系数
计算原始系数在置换分布中的位置

def permutation_test(x, y, n_permutations=10000): """置换检验计算p值""" observed_tau = kendall_tau_vectorized(x, y) count = 0 n = len(x) for _ in range(n_permutations): y_perm = np.random.permutation(y) perm_tau = kendall_tau_vectorized(x, y_perm) if abs(perm_tau) >= abs(observed_tau): count += 1 p_value = count / n_permutations return observed_tau, p_value

7. 实际应用案例与注意事项

7.1 案例：学生成绩与学习时间的关系分析

假设我们收集了20名学生的学习数据：

study_time = [2, 3, 1, 5, 4, 2, 3, 4, 5, 1, 3, 4, 2, 5, 3, 4, 1, 2, 5, 4] exam_scores = [65, 70, 58, 85, 78, 62, 68, 75, 82, 55, 71, 77, 60, 88, 69, 76, 53, 63, 90, 74] tau, p = kendall_tau_with_p(study_time, exam_scores) print(f"肯德尔tau-b: {tau:.4f}, p值: {p:.4f}")

输出可能类似于：

肯德尔tau-b: 0.8471, p值: 0.0000

结果表明学习时间与考试成绩存在强正相关（τ≈0.85），且这种相关性高度显著（p<0.001）。

7.2 使用肯德尔系数的注意事项

数据要求：
- 变量至少是有序的（ordinal）
- 两个变量应存在单调关系
解释相关系数：
- |τ|>0.7：强相关
- 0.3<|τ|≤0.7：中等相关
- |τ|≤0.3：弱相关或无相关
局限性：
- 对样本量敏感，小样本可能难以检测到弱相关
- 计算复杂度高，大数据集可能需要优化算法
与其它相关系数的比较：

相关系数	适用条件	对异常值的敏感性	处理并列排位能力
皮尔逊相关系数	线性关系，正态分布	高	差
斯皮尔曼rho	单调关系	低	中等
肯德尔tau	单调关系，尤其是有并列排位	低	优秀

8. 高级话题与扩展思考

8.1 部分肯德尔相关系数

在某些情况下，我们可能需要控制第三个变量的影响。部分肯德尔相关系数可以解决这个问题，其计算步骤为：

计算X和Z的肯德尔tau（τ_xz）
计算Y和Z的肯德尔tau（τ_yz）
计算X和Y的肯德尔tau（τ_xy）
部分相关系数为：(τ_xy - τ_xz * τ_yz) / √[(1 - τ_xz²)(1 - τ_yz²)]

8.2 加权肯德尔系数

当不同数据对的重要性不同时，可以使用加权肯德尔系数。常见的权重包括：

基于时间（近期观测更重要）
基于可靠性（测量误差小的观测更重要）

8.3 多变量肯德尔一致性系数

当需要评估多个变量（如多个评委的评分）之间的一致性时，可以使用肯德尔W系数（一致性系数）。这在评估者间信度分析中非常有用。

9. 工程实践中的优化技巧

在实际项目中应用肯德尔相关系数时，可以考虑以下优化策略：

大数据集处理：
- 使用近似算法或抽样方法
- 考虑分布式计算（如Spark实现）
缺失值处理：
- 成对删除（pairwise deletion）
- 多重插补（multiple imputation）
可视化辅助：
- 绘制一致对/分歧对的分布图
- 使用热图展示相关系数矩阵

import matplotlib.pyplot as plt import seaborn as sns # 生成相关系数矩阵可视化 data = np.random.rand(100, 5) # 5个变量的100个观测 corr_matrix = np.zeros((5, 5)) for i in range(5): for j in range(5): corr_matrix[i,j] = kendall_tau_vectorized(data[:,i], data[:,j]) plt.figure(figsize=(8,6)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1) plt.title("肯德尔相关系数矩阵") plt.show()