当前位置: 首页 > news >正文

零基础学AI人工智能:9.3 分类算法

承接上一篇回归算法的内容,本篇聚焦有监督学习的另一大核心任务 —— 分类任务。分类任务的目标是预测样本所属的离散类别,是机器学习中落地最广泛的任务范式之一。本篇将系统讲解 K 近邻、CART 决策树两类基础分类算法,梳理集成学习的核心思想,同时覆盖分类任务的评估指标体系与超参数优化方法。

一、K 近邻算法(KNN)

1.1算法概述

K 近邻(K-Nearest Neighbor, KNN)是典型的基于实例的懒惰学习算法,不存在显式的训练过程,训练阶段仅存储全部样本数据,预测阶段通过邻近样本的信息完成推理。该算法同时支持分类与回归两类任务:分类场景下通过多数投票确定样本类别,回归场景下通过邻近样本的均值输出预测值。

1.2距离度量

样本在特征空间中的邻近程度通过距离量化,最通用的度量方式为欧氏距离,即两个样本各维度特征差值的平方和开平方根,直观对应高维空间中两点的直线距离。
由于距离计算对特征量纲高度敏感,使用 KNN 前通常需要对特征做归一化或标准化处理,避免数值范围大的特征主导距离计算结果。

1.3执行流程

  1. 分类任务:首先计算待测样本与所有训练样本的距离,按距离升序排序,选取距离最近的 K 个样本,统计这 K 个样本的类别投票结果,得票最高的类别即为最终分类输出。
  2. 回归任务:前序距离计算与近邻筛选逻辑与分类一致,最终取 K 个近邻样本标签的均值作为预测结果。

1.4超参数优化

K 值是 KNN 的核心超参数,其取值直接决定模型的拟合状态:K 过小易受局部噪声干扰,引发过拟合;K 过大易忽略样本的局部分布规律,引发欠拟合。最优 K 值需要通过系统化调参确定。

工业界普遍采用网格搜索结合交叉验证的方案完成超参寻优:

  1. 交叉验证:将训练集等分为多份,轮流以其中一份作为验证集、其余作为训练集,重复多轮训练与评估,取多轮指标的均值作为该组参数的最终效果。该方法消除了单次数据划分的偶然性,评估结果更具统计可靠性。
  2. 网格搜索:枚举预设的超参数组合,结合交叉验证逐一评估每组参数的泛化能力,最终筛选出全局最优参数组合。在工程实现中,GridSearchCV 是该方案的标准封装工具。

二、CART 决策树

2.1算法概述

CART 全称为分类与回归树(Classification and Regression Tree),是一种二叉树形结构的决策模型,同时支持分类与回归两类任务。模型通过递归分裂特征空间形成层级决策规则,具备极强的可解释性,决策路径可完整追溯。

2.2树结构生成原理

CART 决策树的构建遵循严格的二分规则,核心流程如下:

  1. 强制二分分裂:每次节点分裂仅生成两个子节点,保证树结构的统一与计算的简洁性;
  2. 最优分裂选择:遍历所有特征与分裂点,选取能够最大化节点纯度提升的组合作为当前分裂方案;
  3. 递归生长:对每个子节点重复执行分裂逻辑,自顶向下逐层扩展;
  4. 叶子节点输出:分类场景输出类别判定,回归场景输出连续数值;
  5. 剪枝优化:通过裁剪冗余分支降低模型复杂度,缓解过拟合,提升泛化能力。

2.3算法特性

优势:

  1. 模型逻辑直观,决策规则可解释性强,便于业务侧理解与验证;
  2. 对数据分布无强假设,可同时处理数值型与类别型特征;
  3. 对异常值与缺失值具备一定的鲁棒性;
  4. 适用场景广泛,可覆盖绝大多数分类与回归需求。

局限性:

  1. 单棵决策树容易过度拟合训练数据,泛化能力受限;
  2. 训练数据的微小扰动可能导致树结构发生显著变化,模型稳定性不足;
  3. 贪心分裂策略仅能保证局部最优,无法得到全局最优的树结构。

2.4剪枝策略

剪枝是决策树优化的核心手段,通过简化树结构缓解过拟合,分为预剪枝与后剪枝两类:

  1. 预剪枝:在树的生长过程中提前终止分裂,例如限制树的最大深度、叶子节点最小样本数、分裂最小纯度增益等。其优势是计算效率高、训练资源开销小;缺点是存在提前终止的风险,可能陷入欠拟合。
  2. 后剪枝:先让决策树完全生长,再自底向上逐层评估,裁剪掉对泛化性能无增益的子树。其优势是剪枝精度更高、效果更优;缺点是全量生长阶段资源消耗大,训练成本更高。
    CART 算法通常采用代价复杂度剪枝(CCP)作为后剪枝方案,通过在损失函数中加入叶节点数量的惩罚项,平衡拟合精度与模型复杂度。

三、集成学习基础

3.1核心思想

集成学习的核心逻辑是组合多个弱学习器,构建一个泛化能力更强的强学习器。单个弱学习器的预测能力有限,但通过差异化的训练与合理的融合策略,能够同时降低偏差与方差,显著突破单模型的性能上限。

3.2两大技术范式

根据基学习器的生成方式,集成学习分为两条主流技术路线:

  1. Bagging 范式:并行训练多个相互独立的基学习器,最终通过投票(分类)或平均(回归)融合输出结果。代表算法为随机森林,通过样本自助采样与特征随机采样进一步增强基学习器的差异性,有效降低模型方差,缓解过拟合。
  2. Boosting 范式:串行迭代训练基学习器,每一轮重点拟合上一轮预测错误的样本,逐步叠加提升模型精度。代表算法包括 AdaBoost、GBDT、XGBoost 等。

四、分类任务评估体系

分类模型的效果量化基于混淆矩阵展开,通过细分不同类型的预测结果,衍生出多维度的评估指标。

4.1混淆矩阵

混淆矩阵定义了二分类场景下的四类预测结果:

  1. TP(真正例):正样本被正确判定为正例;
  2. FP(假正例):负样本被错误判定为正例;
  3. TN(真负例):负样本被正确判定为负例;
  4. FN(假负例):正样本被错误判定为负例。

4.2核心评估指标

  1. 准确率:预测正确的样本占总样本的比例,计算公式为(TP + TN) / (TP + TN + FP + FN)。该指标直观反映整体预测精度,但在样本类别不均衡场景下存在严重误导性。
  2. 精确率:预测为正例的结果中真实正例的占比,计算公式为TP / (TP + FP),衡量模型正例预测的准确性,适用于误判成本高的场景。
  3. 召回率:真实正例中被成功识别的比例,计算公式为TP / (TP + FN),衡量模型对正样本的覆盖能力,适用于漏判成本高的场景。
  4. F1 值:精确率与召回率的调和平均值,计算公式为2 ×精确率 × 召回率 / (精确率 + 召回率)。该指标综合平衡了精确率与召回率,是类别不均衡场景下的核心评估标准。

五、逻辑图

http://www.cnnetsun.cn/news/2989217.html

相关文章:

  • AI Agent入门血泪史:从“AI真厉害”到“还我100块”,我踩的坑和学到的经验
  • 计算机Django毕设实战-基于人脸识别的高校自习室预约签到系统设计与搭建 Django 架构下智能自习室座位预约管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • SQLi-Labs靶场从零搭建到通关全攻略(五):堆叠注入与ORDER BY注入
  • 软件工程中的关怀伦理:从抽象关注到具体关怀的实践指南
  • Mac鼠标终极优化指南:5分钟让普通鼠标媲美苹果触控板
  • 人血清与人血清白蛋白HSA解析:纤维蛋白原去除、cGMP人AB血清与细胞治疗原料选型
  • OpenSSL策略映射实战:构建企业级PKI精细化证书控制体系
  • IDA Pro漏洞分析实战:从二进制逆向到漏洞利用开发
  • DCW差分一致性加权:提升扩散模型低步采样质量的关键技术
  • 思维链断裂与工具调用失效:AI Agent 决策机制的工程化剖析
  • 谱图理论在低轨星座星间链路拓扑优化中的应用与实践
  • Java ClassLoader实战:类隔离、热更新与插件化全解析
  • 第11期 | 为什么需要框架?从jQuery到React
  • 如何快速解锁中兴光猫工厂模式:终极Telnet权限获取指南
  • 如何快速解密QQ音乐加密音频:qmc-decoder终极指南
  • 2026 Java岗八股文面试题及答案整理(金九银十冲刺专用)
  • 2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?
  • 如何5分钟掌握LX Music桌面版:跨平台免费音乐播放器终极指南
  • 星环科技助力研究机构探索“AI+”场景,推动知识库构建与智能助手落地
  • JavaScript比较与逻辑运算符底层原理详解
  • 高考志愿填报指南:想成为数据分析师,该选哪些专业?
  • 如何免Steam客户端下载创意工坊模组:WorkshopDL完整指南
  • 【大数据_数仓架构-DolphinScheduler_一次性讲解清楚如何用DolphinScheduler编排数仓任务】
  • FanControl终极指南:5步让你的Windows风扇控制更智能高效
  • 解锁二手iPhone激活锁:applera1n免费工具完整使用指南
  • 工作证明英文翻译怎么办?工作证明英文翻译件办理流程是什么?看完你就明白了!
  • JavaScript :检验数据类型的方法
  • 好用的Windows软件!全局鼠标增强工具!能实现全局鼠标手势、触发角、边缘滚动、窗口拖动与管理等功能!鼠标便捷实用工具
  • 【深度解析】GPT-5.6推理预算升级与复杂Agent代码生成实战
  • 基于NXP P2020DS平台的嵌入式Linux系统开发全流程解析