发明名称 |
基于分子内聚力理论的数据聚类方法 |
摘要 |
本发明涉及一种基于分子内聚力理论的数据聚类方法,其特征在于:对于高维空间上具有N个数据点的数据集,设每个数据点为一个分子,设多个数据点形成的聚类为分子团,基于分子内聚力理论进行数据聚类:步骤一:计算两两数据点之间的内聚力能量值并保存;步骤二:各数据点并行寻找能使合并总能量降低且降到最低的数据点,与其合并为一个聚类,通过该步骤得到多个聚类和未聚类的数据点;步骤三:各数据点和聚类并行寻找能使合并总能量降低且降到最低的数据点或聚类,与其合并为一个新的聚类;步骤四:重复步骤(3),直至所有数据点或聚类都无法使其他数据点或聚类能量降低,所有数据点聚类完成。该方法不用事先估计类别数目,提高了聚类结果的准确性。 |
申请公布号 |
CN102087667A |
申请公布日期 |
2011.06.08 |
申请号 |
CN201110032779.1 |
申请日期 |
2011.01.30 |
申请人 |
福州大学 |
发明人 |
余春艳;张栋;王秀;姜云飞;李建明 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
福州元创专利商标代理有限公司 35100 |
代理人 |
蔡学俊 |
主权项 |
一种基于分子内聚力理论的数据聚类方法,其特征在于:对于高维空间上具有N个数据点的数据集,设每个数据点为一个分子,设多个数据点形成的一个聚类为一个分子团,基于分子内聚力理论按如下步骤进行数据聚类:步骤(1):利用分子势能公式分别计算两两数据点之间的内聚力能量值,并保存;步骤(2):各数据点并行寻找能使合并总能量降低且降到最低的数据点,与其合并为一个聚类,根据聚类完成的先后顺序,当一个数据点A被另一数据点B合并为一个聚类后,所述数据点A不再主动寻找与其聚类的数据点,也不再以单个数据点形式作为其他数据点的聚类选择对象;通过该步骤得到多个聚类和未找到使合并总能量降低数据点而无法聚类的数据点;步骤(3):步骤(2)得到的各数据点和聚类并行寻找能使合并总能量降低且降到最低的数据点或聚类,与其合并为一个新的聚类,根据聚类完成的先后顺序,当一个数据点或聚类C被另一数据点或聚类D合并为一个新的聚类后,所述数据点或聚类C不再主动寻找与其聚类的数据点或聚类,也不再以原形式作为其他数据点或聚类的聚类选择对象;步骤(4):重复步骤(3),直至所有数据点或聚类都无法使其他数据点或聚类能量降低;步骤(5):所有数据点聚类完成,并得到数据点最终的类簇及其类别数目。 |
地址 |
350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区 |