当前位置：首页 > news >正文

保姆级教程：用Python+LIBSVM复现周志华《机器学习》西瓜数据集3.0α实验（附完整代码）

news 2026/6/1 12:00:02

从理论到实践：Python+LIBSVM复现西瓜数据集3.0α的SVM实验全流程

在机器学习领域，支持向量机(SVM)一直以其优秀的分类性能和清晰的数学原理备受推崇。周志华教授的《机器学习》一书中，西瓜数据集3.0α作为经典案例，常被用于演示SVM的核心概念。然而，许多学习者在从理论过渡到实践时会遇到各种障碍——数据格式转换困难、参数设置不明确、结果可视化复杂等问题。本文将彻底解决这些痛点，提供一份零障碍的实践指南。

1. 环境准备与数据预处理

1.1 安装必要的Python包

在开始实验前，我们需要确保环境中有以下工具包：

pip install libsvm openpyxl numpy matplotlib

注意：如果你使用Anaconda，可以直接在conda环境中运行上述命令。建议创建一个新的虚拟环境来管理项目依赖。

1.2 理解西瓜数据集3.0α

西瓜数据集3.0α包含17个样本，每个样本有2个特征（密度和含糖率）和1个二分类标签（好瓜或坏瓜）。原始数据通常以Excel表格形式存储，需要转换为LIBSVM要求的格式：

[类别] [属性编号1]:[属性值1] [属性编号2]:[属性值2]

1.3 数据格式转换实战

下面是将Excel数据转换为LIBSVM格式的完整Python代码：

import openpyxl def excel_to_libsvm(input_path, output_path): workbook = openpyxl.load_workbook(input_path) sheet = workbook.active with open(output_path, 'w') as f: for row in sheet.iter_rows(min_row=2, values_only=True): label = int(row[0]) feature1 = float(row[1]) feature2 = float(row[2]) line = f"{label} 1:{feature1:.3f} 2:{feature2:.3f}\n" f.write(line) # 使用示例 excel_to_libsvm("xigua3.0.xlsx", "xigua.libsvm")

关键点检查：

确保Excel文件中没有空行或格式错误的数据
浮点数保留3位小数以保证精度
生成的.libsvm文件应与代码放在同一目录下

2. LIBSVM核心操作指南

2.1 数据加载与基础训练

LIBSVM提供了简洁的Python接口，下面是加载数据和训练模型的基本流程：

from libsvm.svmutil import * # 加载数据 labels, features = svm_read_problem('xigua.libsvm') # 训练线性核SVM linear_model = svm_train(labels, features, '-t 0 -c 100') # 评估模型 p_labels, p_acc, p_vals = svm_predict(labels, features, linear_model)

2.2 核函数选择与参数调优

LIBSVM支持多种核函数，以下是常用参数说明：

参数	选项	说明
-t	0	线性核
2	高斯核(RBF)
-c	数值	惩罚系数C，控制分类错误的容忍度
-g	数值	高斯核的gamma参数，影响决策边界形状

高斯核SVM训练示例：

# 高斯核SVM，设置C=1000，gamma=0.5 rbf_model = svm_train(labels, features, '-t 2 -c 1000 -g 0.5') # 交叉验证寻找最优参数 best_c, best_g, best_rate = find_parameters('xigua.libsvm', '-t 2 -v 5')

提示：对于小型数据集，建议使用5折交叉验证(-v 5)来评估模型性能，避免过拟合。

3. 结果可视化与分析

3.1 决策边界绘制

可视化是理解SVM行为的关键，下面是绘制决策边界的完整代码：

import numpy as np import matplotlib.pyplot as plt def plot_decision_boundary(model, features, labels): # 创建网格点 x_min, x_max = min(f[1] for f in features), max(f[1] for f in features) y_min, y_max = min(f[2] for f in features), max(f[2] for f in features) xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100)) # 预测网格点类别 grid_points = [f"1:{x:.2f} 2:{y:.2f}" for x, y in zip(xx.ravel(), yy.ravel())] _, _, grid_pred = svm_predict([0]*len(grid_points), grid_points, model) # 绘制结果 plt.contourf(xx, yy, np.array(grid_pred).reshape(xx.shape), alpha=0.3) plt.scatter([f[1] for f in features], [f[2] for f in features], c=labels) plt.xlabel('Density') plt.ylabel('Sugar Content') plt.show() # 使用示例 plot_decision_boundary(linear_model, features, labels)

3.2 线性核与高斯核对比

通过可视化可以直观比较两种核函数的差异：

线性核特点：

决策边界是直线
对线性可分数据效果良好
参数少，训练速度快

高斯核特点：

可以拟合复杂非线性边界
需要调整gamma参数
可能产生过拟合

实验发现：在西瓜数据集上，线性核准确率为82.35%，而适当参数的高斯核可以达到100%的训练准确率，但需要警惕过拟合风险。

4. 高级技巧与常见问题

4.1 支持向量分析

支持向量是SVM的核心概念，我们可以提取它们进行分析：

# 获取支持向量 sv_indices = linear_model.get_sv_indices() support_vectors = [features[i-1] for i in sv_indices] print(f"线性核支持向量数量: {len(support_vectors)}")

4.2 参数搜索策略

寻找最优参数组合的系统方法：

def parameter_search(labels, features): best_acc = 0 best_params = {} for c in [0.1, 1, 10, 100, 1000]: for g in [0.01, 0.1, 1, 10]: acc = svm_train(labels, features, f'-t 2 -c {c} -g {g} -v 5') if acc > best_acc: best_acc = acc best_params = {'C': c, 'gamma': g} return best_params optimal_params = parameter_search(labels, features)