当前位置: 首页 > news >正文

K-Means 聚类的目标函数:簇内误差平方和

1. 什么是 K-Means?

K-Means 是一种无监督迭代式的聚类算法:
给定数据集{x₁, x₂, …, xₙ}与预设簇数K,算法把样本划分为K个不相交的簇C₁, C₂, …, Cₖ,使得同一簇内样本尽可能相似,不同簇间样本尽可能远离

核心思想:
> “让簇内‘抱团’,让簇间‘疏远’。”


2. 目标函数 J:簇内误差平方和(WCSS)

K-Means 用几何距离衡量相似性,目标函数J定义为:
J=∑k=1K∑x∈Ck∥x−μk∥2 J = \sum_{k=1}^{K} \sum_{x \in C_k} \|x - \mu_k\|^2J=k=1KxCkxμk2

  • μₖ:第k个簇的质心(centroid)
  • ‖x − μₖ‖²:样本到所属质心的欧氏距离平方
  • J的物理意义:Within-Cluster Sum of Squares (WCSS),即“簇内误差平方和”

>算法目标:找到使J最小的簇划分{C₁,…,Cₖ}与质心{μ₁,…,μₖ}


3. 迭代两步:坐标下降求 J

K-Means 采用坐标下降策略,交替更新两个变量:

步骤固定量优化量公式
E步(Assignment)质心μₖ样本归属CₖCₖ = {x : ‖x − μₖ‖² ≤ ‖x − μⱼ‖², ∀j}
M步(Update)Cₖ质心μₖμₖ = (1/Cₖ) ∑_{x∈Cₖ} x

示例

defkmeans(X,K,max_iter=100):n,d=X.shape mu=X[torch.randperm(n)[:K]]# 随机初始化 K 个质心for_inrange(max_iter):# E步:计算距离并分配样本dist=torch.cdist(X,mu)# (n, K)labels=torch.argmin(dist,dim=1)# (n,)# M步:重新计算质心forkinrange(K):mask=labels==kifmask.sum()>0:mu[k]=X[mask].mean(dim=0)returnlabels,mu
http://www.cnnetsun.cn/news/3163377.html

相关文章:

  • 【信息科学与工程学】【数据中心】【容灾备份】第三十一篇 云数据中心各类CPU计算型业务跨数据中心容灾设计方案
  • Home Assistant前端架构设计:现代化智能家居界面的技术实现方案
  • MkDocs架构深度解析:高性能文档站点生成器的技术实现
  • 10分钟极速上手:Retrieval-based-Voice-Conversion-WebUI终极变声指南
  • Cap开源屏幕录制工具完全指南:告别Loom的终极解决方案
  • 让静态插画动起来:5分钟掌握实时动作捕捉技术Pose Animator
  • 本地AI画图神器Codex:指哪改哪的无限画布插件部署与实战
  • 如何在本地部署AI研究助手?Local Deep Research实用指南
  • Saber手写笔记应用:重新定义数字笔记的无限可能
  • ICM-42605与TM4C1294NCPDT实现高精度运动追踪方案
  • 3步解锁PS3经典:RPCS3模拟器快速上手全攻略
  • 跨越平台的苹果系统下载困境:gibMacOS如何打破操作系统壁垒
  • AI Agent 面试题 699:多Agent系统中的安全协调和信任管理
  • 【Atlas】Atlas Server 的作用是什么?它对外提供哪些服务?
  • 【Atlas】Atlas 是否支持图数据库?其底层是否基于图结构存储?
  • 【由云向算】产品品鉴:告别AI失忆!移动云海山数据库HaishanDB解锁OpenClaw云端长期记忆
  • 腾讯元宝生成的html怎么导出:一场关于结构化数据流转的深度测评——AI导出鸭如何终结“格式乱码”时代
  • FanControl:让你的电脑风扇从此智能又安静
  • OpenRGB终极指南:如何用一个免费开源软件统一管理所有RGB设备灯光
  • 线性代数:机器人智能运动的数学基石
  • Python 语法练习不能只停留在基础语法:从库存扣减业务理解代码逻辑
  • 【动态规划算法】专题五——子序列问题
  • This is Going to Sound Crazy, But What If We Used Large Language Models to Boost Automatic Databa...
  • 微信怎么给别人定时发消息?定时消息助手下载
  • Gemini 复制到 word 格式问题频繁出现?AI 导出鸭一站式修复排版错乱难题
  • LangFlow 1.x 系列【5】可视化编辑页面功能说明
  • Web安全从入门到实战:一份430页的系统学习路线与CTF渗透指南
  • 电池寿命预测精度提升40%:BatteryML开源工具深度解析
  • Windows 11 开始菜单自定义:4项注册表键值详解与隐藏推荐区域
  • Linux 安装和卸载图形化界面