发明名称 | 一种基于集聚系数的自适应聚类方法及系统 | ||
摘要 | 本发明提供一种基于集聚系数的自适应聚类方法,包括:根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定数据点归于哪个属类,属类数目,建立数据点间的关联关系和属类间的关联关系;对每个属类进行预分割,计算两个子类的类内相似度和两个子类的类间相似度,判断预分割的两个子类是否满足分割条件,若是,则接收预分割;若否,则取消预分割;计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度,判断两个属类是否满足合并条件,若是,则合并两个属类生成新的属类;若否,则放弃合并。本发明首次将类中数据点两两之间的关系考虑进来,基于集聚系数计算类内相似程度和类间相似程度,使之更精确地集聚数据。 | ||
申请公布号 | CN104281674A | 申请公布日期 | 2015.01.14 |
申请号 | CN201410512802.0 | 申请日期 | 2014.09.29 |
申请人 | 同济大学 | 发明人 | 蒋昌俊;陈闳中;闫春钢;丁志军;钟明洁;孙海春 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海光华专利事务所 31219 | 代理人 | 余明伟 |
主权项 | 一种基于集聚系数的自适应聚类方法,藉由多台服务器及客户端构建的计算机网络系统中,用于需要聚类的元素的集合,该集合中包括若干聚类对象集中的数据点,其特征在于,所述基于集聚系数的自适应聚类方法包括:初步聚类步骤,即获取若干聚类对象集中的数据点间的关联关系,获取适用于查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收敛速率;按照所述数据点间的关联关系的大小依次提取数据点对,根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类,属类数目,并建立数据点间的关联关系和属类间的关联关系,直至处理完所有数据点以获取初步聚类结果;自学习聚类步骤,包括:分割步骤,即计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数,将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较,按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割,并计算两个子类的类内相似度和两个子类的类间相似度,判断预分割的两个子类是否满足分割条件,若是,则接收所述预分割,产生由多个属类组成的属类集合,并继续下一步步骤;若否,则取消所述预分割;查找步骤,在所述属类集合中查找具有关联关系的两个属类;合并步骤,即计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度,判断具有关联关系的两个属类是否满足合并条件,若是,则表示所述两个属类之间的关系密切,合并所述两个属类生成新的属类;若否,则表示所述两个属类之间的关系疏远,放弃合并。 | ||
地址 | 200092 上海市杨浦区四平路1239号 |