发明名称 一种基于数据场的自动聚类方法
摘要 本发明是一种基于数据场的自动聚类方法,通过将每个空间数据看作一个具有质量的数据点,空间数据之间彼此相互影响形成一个数据场,数据场的势值则表现为所有数据点在该处的影响力的总和。数据场势值的一阶偏导数值为零的点即为数据叠加作用最为密集的区域,即数据的簇中心。本发明通过搜索数据场势值的一阶导数来发现数据的簇中心,进而根据这些簇中心向两侧搜索并确定簇的边缘,最终将完整的簇标记出来。与现有聚类方法相比,本发明具有处理速度快、不受噪声影响、对任意形状的聚类有效的特点,可以被应用于图像处理、社区发现、异常检测、市场研究等领域,从而提高处理结果的精确度。
申请公布号 CN102184215B 申请公布日期 2012.05.02
申请号 CN201110114487.2 申请日期 2011.05.04
申请人 武汉大学 发明人 王树良;陈亚森
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 张火春
主权项 一种基于数据场的自动聚类方法,其特征在于,包括以下步骤:步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,并将每个数据分配到相应的网格中;步骤2,根据用户提供的影响半径参数d,将步骤1中划分的网格每dn个进行合并,得到(k/d)n个大网格;步骤3,将数据场的影响因子σ设定为步骤2中合并后的大网格的最大边长;步骤4,将步骤2中合并后所得每个大网格看作一个具有一定质量的数据点,数据点的质量在数值上等于该大网格中包含的数据总数量,数据点的坐标为大网格的重心坐标;这(k/d)n个数据点之间相互作用构成数据场,数据点之间相互作用力的大小由步骤3中设定的影响因子σ控制;步骤5,根据数据场的一阶偏导势值公式,计算出步骤4所述数据场中位于步骤1划分的每个网格的重心处,每个维度上的一阶偏导值;步骤6,遍历步骤1划分的每个网格,找出每个维度上满足设定条件的网格,并将同一维度上满足设定条件的网格坐标值保存到一个队列中;所述设定条件为,按照遍历先后顺序,此网格的前一个网格的一阶偏导值大于零,而且此网格的一阶偏导值小于或者等于零;步骤7,遍历步骤6中所得n个队列,保留在每个队列中都存在网格坐标值的网格作为找到的聚类中心,并在标记矩阵中标记;所述标记矩阵是一个n维数组,标记矩阵中的单元和步骤1所得网格一一对应;步骤8,确定步骤7所得各聚类中心的网格包含的数据总数量,将其中的最小值作为噪声阀值t;步骤9,对标记矩阵中标记的每个聚类中心,在每个维度上搜索,向左直到一阶偏导值不再增加为止,向右直到一阶偏导值不再减少为止;对于每一个搜索找到的网格,如果其包含的数据点数量大于或者等于步骤8所得噪声阀值t,则将该网格在标记矩阵中标记;步骤10,将标记矩阵中已标记和未标记的单元分别看作0和1,对标记矩阵进行区域标记,所找到的每一个连续区域对应步骤1划分的一组网格,进而对应着实际数据中的一个聚类。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学