当前位置：首页 > news >正文

零基础学AI人工智能：9.3 分类算法

news 2026/6/23 1:28:04

承接上一篇回归算法的内容，本篇聚焦有监督学习的另一大核心任务 —— 分类任务。分类任务的目标是预测样本所属的离散类别，是机器学习中落地最广泛的任务范式之一。本篇将系统讲解 K 近邻、CART 决策树两类基础分类算法，梳理集成学习的核心思想，同时覆盖分类任务的评估指标体系与超参数优化方法。

一、K 近邻算法（KNN）

K 近邻（K-Nearest Neighbor, KNN）是典型的基于实例的懒惰学习算法，不存在显式的训练过程，训练阶段仅存储全部样本数据，预测阶段通过邻近样本的信息完成推理。该算法同时支持分类与回归两类任务：分类场景下通过多数投票确定样本类别，回归场景下通过邻近样本的均值输出预测值。

样本在特征空间中的邻近程度通过距离量化，最通用的度量方式为欧氏距离，即两个样本各维度特征差值的平方和开平方根，直观对应高维空间中两点的直线距离。
由于距离计算对特征量纲高度敏感，使用 KNN 前通常需要对特征做归一化或标准化处理，避免数值范围大的特征主导距离计算结果。

K 值是 KNN 的核心超参数，其取值直接决定模型的拟合状态：K 过小易受局部噪声干扰，引发过拟合；K 过大易忽略样本的局部分布规律，引发欠拟合。最优 K 值需要通过系统化调参确定。

工业界普遍采用网格搜索结合交叉验证的方案完成超参寻优：

交叉验证：将训练集等分为多份，轮流以其中一份作为验证集、其余作为训练集，重复多轮训练与评估，取多轮指标的均值作为该组参数的最终效果。该方法消除了单次数据划分的偶然性，评估结果更具统计可靠性。
网格搜索：枚举预设的超参数组合，结合交叉验证逐一评估每组参数的泛化能力，最终筛选出全局最优参数组合。在工程实现中，GridSearchCV 是该方案的标准封装工具。

CART 全称为分类与回归树（Classification and Regression Tree），是一种二叉树形结构的决策模型，同时支持分类与回归两类任务。模型通过递归分裂特征空间形成层级决策规则，具备极强的可解释性，决策路径可完整追溯。

CART 决策树的构建遵循严格的二分规则，核心流程如下：

优势：

局限性：

剪枝是决策树优化的核心手段，通过简化树结构缓解过拟合，分为预剪枝与后剪枝两类：

预剪枝：在树的生长过程中提前终止分裂，例如限制树的最大深度、叶子节点最小样本数、分裂最小纯度增益等。其优势是计算效率高、训练资源开销小；缺点是存在提前终止的风险，可能陷入欠拟合。
后剪枝：先让决策树完全生长，再自底向上逐层评估，裁剪掉对泛化性能无增益的子树。其优势是剪枝精度更高、效果更优；缺点是全量生长阶段资源消耗大，训练成本更高。
CART 算法通常采用代价复杂度剪枝（CCP）作为后剪枝方案，通过在损失函数中加入叶节点数量的惩罚项，平衡拟合精度与模型复杂度。

集成学习的核心逻辑是组合多个弱学习器，构建一个泛化能力更强的强学习器。单个弱学习器的预测能力有限，但通过差异化的训练与合理的融合策略，能够同时降低偏差与方差，显著突破单模型的性能上限。

根据基学习器的生成方式，集成学习分为两条主流技术路线：

Bagging 范式：并行训练多个相互独立的基学习器，最终通过投票（分类）或平均（回归）融合输出结果。代表算法为随机森林，通过样本自助采样与特征随机采样进一步增强基学习器的差异性，有效降低模型方差，缓解过拟合。
Boosting 范式：串行迭代训练基学习器，每一轮重点拟合上一轮预测错误的样本，逐步叠加提升模型精度。代表算法包括 AdaBoost、GBDT、XGBoost 等。

分类模型的效果量化基于混淆矩阵展开，通过细分不同类型的预测结果，衍生出多维度的评估指标。

混淆矩阵定义了二分类场景下的四类预测结果：

准确率：预测正确的样本占总样本的比例，计算公式为(TP + TN) / (TP + TN + FP + FN)。该指标直观反映整体预测精度，但在样本类别不均衡场景下存在严重误导性。
精确率：预测为正例的结果中真实正例的占比，计算公式为TP / (TP + FP)，衡量模型正例预测的准确性，适用于误判成本高的场景。
召回率：真实正例中被成功识别的比例，计算公式为TP / (TP + FN)，衡量模型对正样本的覆盖能力，适用于漏判成本高的场景。
F1 值：精确率与召回率的调和平均值，计算公式为2 ×精确率 × 召回率 / (精确率 + 召回率)。该指标综合平衡了精确率与召回率，是类别不均衡场景下的核心评估标准。