博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
K均值算法(K-means)
阅读量:4068 次
发布时间:2019-05-25

本文共 877 字,大约阅读时间需要 2 分钟。

K均值聚类容易实现,但是可能收敛到局部最小值,影响K-means效果的因素:

  • K值的选择
  • 初始化质心
  • 距离度量

:只需要计算数据点与聚类中心的距离,其计算复杂度只有O(n)。

:十分依赖于初始给定的聚类数目;同时随机初始化可能会生成不同的聚类效果,所以它缺乏重复性和连续性。

伪代码:

创建k个点作为起始质心(通常是随机选择)当任意一个点的簇分配结果发生改变时:    对数据集中的每个数据点:        对每个质心:            计算质心与数据点之间的距离        将数据点分配到距其最近的簇    对每一个簇,计算簇中所有店的均值并将均值作为质心

为克服K-means收敛于局部最小值的问题,有人提出了二分K-均值算法(bisecting K-means)。

伪代码:

将所有点看成一个簇当簇的数目小于K时对于每个簇:    计算总误差    在给定的簇上面进行K-均值聚类(K=2)    计算将该簇一分为二之后的总误差选择使得误差最小的那个簇进行划分操作

在Scikit-learn中也实现了2种K-means:

  • cluster.KMeans([n_clusters, init, n_init, …]) K-Means clustering
  • cluster.MiniBatchKMeans([n_clusters, init, …]) Mini-Batch K-Means clustering

应用:

  • 文档分类器、客户分类(开始聚类时,公司的客户只是具有某些特征,没有具体的分类标准。那么可以直接根据特征进行聚类,得出聚类结果后再分析研究这些类别的真实含义)
  • 对地理坐标进行聚类、对恶意IP进行聚类、识别犯罪地点、IT组件报警信息聚类与故障预测。(位置信息聚类,发现常驻地;微信聚类,黑产,恶意用户。)
  • 保险欺诈检测

周志华 《机器学习》 9.4 P202

《Building Machine Learning Systems with Python》 P46

《Machine Learning in Action》

转载地址:http://cioji.baihongyu.com/

你可能感兴趣的文章
《数据库系统概论》 第三章 关系数据库标准语言SQL
查看>>
SQL语句(二)查询语句
查看>>
SQL语句(六) 自主存取控制
查看>>
《计算机网络》第五章 运输层 ——TCP和UDP 可靠传输原理 TCP流量控制 拥塞控制 连接管理
查看>>
堆排序完整版,含注释
查看>>
二叉树深度优先遍历和广度优先遍历
查看>>
生产者消费者模型,循环队列实现
查看>>
PostgreSQL代码分析,查询优化部分,process_duplicate_ors
查看>>
PostgreSQL代码分析,查询优化部分,canonicalize_qual
查看>>
PostgreSQL代码分析,查询优化部分,pull_ands()和pull_ors()
查看>>
ORACLE权限管理调研笔记
查看>>
移进规约冲突一例
查看>>
IA32时钟周期的一些内容
查看>>
SM2椭圆曲线公钥密码算法
查看>>
获得github工程中的一个文件夹的方法
查看>>
《PostgreSQL技术内幕:查询优化深度探索》养成记
查看>>
PostgreSQL查询优化器详解之逻辑优化篇
查看>>
STM32中assert_param的使用
查看>>
C语言中的 (void*)0 与 (void)0
查看>>
vu 是什么
查看>>