聚类半径的意思?聚类半径的确定?聚类,又称分割,是对数据集进行分组,使类间 相似性最大化,而使类内相似性最大化.我刚开始学聚类分析,对其中的聚类半径的理解很是模糊,这个半径是一个具

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/06 04:08:13
聚类半径的意思?聚类半径的确定?聚类,又称分割,是对数据集进行分组,使类间 相似性最大化,而使类内相似性最大化.我刚开始学聚类分析,对其中的聚类半径的理解很是模糊,这个半径是一个具

聚类半径的意思?聚类半径的确定?聚类,又称分割,是对数据集进行分组,使类间 相似性最大化,而使类内相似性最大化.我刚开始学聚类分析,对其中的聚类半径的理解很是模糊,这个半径是一个具
聚类半径的意思?聚类半径的确定?
聚类,又称分割,是对数据集进行分组,使类间 相似性最大化,而使类内相似性最大化.
我刚开始学聚类分析,对其中的聚类半径的理解很是模糊,这个半径是一个具体的还是抽象的?能否用数值关系表现出来?
回答这个问题需要自己的理解。
不需要写太多,最好能说到点子上,ctrl+v了。

聚类半径的意思?聚类半径的确定?聚类,又称分割,是对数据集进行分组,使类间 相似性最大化,而使类内相似性最大化.我刚开始学聚类分析,对其中的聚类半径的理解很是模糊,这个半径是一个具
1.聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点.聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性.
聚类的用途是很广泛的.在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯.它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤.聚类分析的算法可以分为分裂法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods).
2.一种新的聚类算法枣逐级均值聚类算法.该方法① 通过逐步增加聚类数目来逐层搜索初值中心点(本文中聚类数与层相对应,其含意显然).考虑到在进行聚类分析时,总希望将一些特性相似的样本数据划分在同一类中,而它们在空间中的相互关系可以按照某些范数度量的大小关系来表征,逐级均值聚类的思想正是充分利用这些关系,选择相对分散在样本数据空间中的点为初始中心向量,它相当于取初值使得其接近最优解,从而避免局部最优,其基本思路是首先将所有数据看成一类,求出中心向量,然后逐步增加聚类数,寻找前一层中特性与各个中心差异最大的点,命名该点为“逐级点”,将该点和前一层的中心向量结合起来作为该层的初始中心向量,再对该层进行分析,计算新的中心向量;② 对空间内部的关系逐层分析,以便确定聚类数目.每层类与类之间的关系和类自身的关系可以通过某种范数来进行度量,随着数据空间不断地被细分,这种关系将发生变化,可以根据聚类分析的目的,制定某种准则来刻画它,一旦达到要求,就表示聚类完成,此时聚类数也便确定下来.
该算法的步骤和分析如下:
(1)初始化
定义要进行聚类分析的样本数据集合为:X={X1,X2,…,Xm},其中m为样本空间数据总数.置循环变量k=1,k为聚类数.计算该层的类中心为第l层第k类的中心向量.
(2)逐层分析
由于样本数据空间可能存在一些特性与其它样本差异很大的独立样本点,它们可能是一些坏数据,也可能是样本空间选择不够准确造成的.在逐级均值聚类中,视这种只有一个样本点的类为孤立类,考虑到它的特殊性,并且考虑到它对式(1)没有影响,一旦出现这种孤立类,便将其记录下来,并从原样本数据空间剥离出去,重新在该层对上述剩余数据空间进行中心值搜索,直到这种孤立类不再存在.如果原空间存在孤立类,其意义是很明显的,因为孤立类的集合实际上是在原始数据空间中关于剩余数据空间的补集,其每层孤立点之间的距离或层与层孤立点之间的距离,度量了剩余数据空间各类之间的最大离散程度.随着聚类数目的增加,后一层各个类的聚合程度显然要比前一层大,逐级点与其所在类的中心之间的关系以及各个类相互之间的关系将发生变化,通过它们可以反映该层的聚类情况.RMC的关键是“逐级点”的确定,这不仅因为它和该层所有类中心将结合起来作为下一层聚类分析的初始中心向量,还因为它间接地表现了该层样本数据空间的分布情况,可被用来制定聚类中止准则.由定义知,某一层的“逐级点”应该是偏离它所在类中心距离最大的数据点,同时应该距离其它类中心尽可能的远,这里取离各类中心距离之和与离它所在中心距离乘积最大的数据点为“逐级点”.逐层分析的实现步骤如下:
1)寻找“逐级点”,记为Rk,若设某点i离各类中心距离之和为A(i),且与其所在类的中心距离为B(i),则
2)将Rk从其所在类(设为第j类)中剔除,重新计算该类的中心,并设其新的中心为
3)令k=k+1,即将原有聚类数目加1,置该层的初始中心为
4)计算X中所有数据与中心的距离,并将其分别划分在离它们最近的中心所在类中;
5)重新计算类的中心判断Ck是否有变化,有,则转步骤4),否则,继续执行下一步.
6)判断是否有孤立类Sk,若有,记下孤立类的
否则,执行下一步;
7)计算所有类的方差类中心两两之间的距离G=(G1,…,GN),N=