发明名称 一种基于近邻传播的XML文档谱聚类方法
摘要 本发明公开了Web数据管理技术领域中的一种基于近邻传播的XML文档谱聚类方法。本发明将XML文档用XML路径构成的特征向量表示;然后计算XML文档向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N;之后用近邻传播算法修正隐含相似的XML文档向量两两之间的相似度,得到最终的相似度矩阵A;最后根据最终的相似度矩阵A,应用第一指定方法确定XML文档的聚类个数及聚类结果。本发明通过用近邻传播算法修正了使用传统的相似度计算方法得到的XML文档间的初始相似度矩阵,使其能反映隐含相似的XML文档之间的相似度;本发明与XML文档的顺序无关,适用于任意顺序排列的XML文档检索结果的聚类。
申请公布号 CN102799680B 申请公布日期 2014.10.15
申请号 CN201210257005.3 申请日期 2012.07.24
申请人 华北电力大学(保定) 发明人 李新叶
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京众合诚成知识产权代理有限公司 11246 代理人 黄家俊
主权项 一种基于近邻传播的XML文档谱聚类方法,其特征是该方法包括以下步骤:步骤1:将XML文档用XML路径构成的特征向量表示;步骤2:计算特征向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N;步骤3:用近邻传播算法修正特征向量两两之间的相似度,得到相似度矩阵A,所述近邻传播算法具体为:a:将初始近邻关系矩阵N中的行向量,按其所含有的1的数量,从多到少进行排列;进而得到排序后的XML文档集,并按照排序后的XML文档集的顺序来置换初始相似度矩阵W和初始近邻关系矩阵N中的对应的行和列,得到相似度矩阵W′和近邻关系矩阵N′;b:从排序后的XML文档集中的第一个XML文档开始,确定第一个XML文档与排序后的XML文档集中其余文档的隐含相似关系;隐含相似关系是指若两个XML文档之间不是近邻关系,但这两个XML文档同时和另一个XML文档是近邻关系,则这两个XML文档是隐含相似关系;若这两个XML文档是隐含相似关系,则修改近邻关系矩阵N′中对应这两个XML文档的元素为1;修改相似度矩阵W′中对应这两个XML文档的元素为这两个XML文档分别和另一个XML文档的对应元素中小的元素;重复上述步骤,直至最后一个XML文档;步骤4:根据相似度矩阵A,应用多路谱聚类方法确定XML文档的聚类个数及聚类结果。
地址 071003 河北省保定市永华北大街619号