发明名称 | 一种基于近邻传播的XML文档谱聚类方法 | ||
摘要 | 本发明公开了Web数据管理技术领域中的一种基于近邻传播的XML文档谱聚类方法。本发明将XML文档用XML路径构成的特征向量表示;然后计算XML文档向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N;之后用近邻传播算法修正隐含相似的XML文档向量两两之间的相似度,得到最终的相似度矩阵A;最后根据最终的相似度矩阵A,应用第一指定方法确定XML文档的聚类个数及聚类结果。本发明通过用近邻传播算法修正了使用传统的相似度计算方法得到的XML文档间的初始相似度矩阵,使其能反映隐含相似的XML文档之间的相似度;本发明与XML文档的顺序无关,适用于任意顺序排列的XML文档检索结果的聚类。 | ||
申请公布号 | CN102799680A | 申请公布日期 | 2012.11.28 |
申请号 | CN201210257005.3 | 申请日期 | 2012.07.24 |
申请人 | 华北电力大学(保定) | 发明人 | 李新叶 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京众合诚成知识产权代理有限公司 11246 | 代理人 | 黄家俊 |
主权项 | 一种基于近邻传播的XML文档谱聚类方法,其特征是该方法包括以下步骤:步骤1:将XML文档用XML路径构成的特征向量表示;步骤2:计算特征向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N;步骤3:用近邻传播算法修正特征向量两两之间的相似度,得到相似度矩阵A;步骤4:根据相似度矩阵A,应用第一指定方法确定XML文档的聚类个数及聚类结果。 | ||
地址 | 071003 河北省保定市永华北大街619号 |