k均值聚类?k均值聚类算法的基本思想
一、k均值聚类和r型聚类啥区别
k均值聚类是k的均值聚类,r型聚类是r型的聚类。
二、K-均值聚类和R聚类区别
k均值聚类法快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法得出一个树状图,至于聚类的类别需要自己根据树状图以及经验来确定
三、k均值聚类和系统聚类优劣
K-Means是最为经典的无监督聚类(UnsupervisedClustering)算法,其主要目的是将n个样本点划分为k个簇,使得相似的样本尽量被分到同一个聚簇。K-Means衡量相似度的计算方法为欧氏距离(EuclidDistance)。
K-Means算法的特点是类别的个数是人为给定的,如果让机器自己去找类别的个数,我们有AP聚类算法。K-Means的一个重要的假设是:数据之间的相似度可以使用欧氏距离度量,如果不能使用欧氏距离度量,要先把数据转换到能用欧氏距离度量,这一点很重要。(注:可以使用欧氏距离度量的意思就是欧氏距离越小,两个数据相似度越高)
算法
伪代码:
functionK-Means(输入数据,中心点个数K)
获取输入数据的维度Dim和个数N
随机生成K个Dim维的点,或随机选k个样本中的点
while(算法未收敛)
对N个点:计算每个点属于哪一类。