主权项 |
一种文献作者重名检测方法,其特征在于包括如下步骤:步骤1:判断初始训练集是否为空,如果为空,进入步骤7,否则,则进入步骤2;步骤2:从初始训练集中提取一个文献聚类,判断终止训练集是否为空,若不为空,则进入步骤4,若为空,进入步骤3;步骤3:将从初始训练集中提取的文献聚类添加到终止训练集,进入步骤2;步骤4:从终止训练集中提取文献聚类,进入步骤5;步骤5:判断从初始训练集中提取的文献聚类与从终止训练集中提取的文献聚类是否满足消歧规则,若满足条件,则合并两个文献聚类,进入步骤6,若不满足,进入步骤3;步骤6:将已经提取的文献聚类从初始训练集中移除,进入步骤1;步骤7:进行二次聚类,将终止训练集赋值给二次聚类的初始聚类,进入步骤8;步骤8:判断二次聚类的初始训练集是否为空,若为空,算法结束,否则进入步骤9;步骤9:从二次聚类的初始训练集中提取一个文献聚类,判断二次聚类的终止训练集是否为空,若不为空,则进入步骤11,若为空,进入步骤10;步骤10:将提取的文献聚类添加到二次聚类的终止训练集中,进入步骤9;步骤11:逐次从终止训练集中提取文献聚类,进入步骤12;步骤12:对二次聚类初始训练集提取的文献聚类与终止训练集的文献聚类进行合作者相似度判断,若结果满足相似度阈值,则合并两个文献聚类,进入步骤13,若不满足,进入步骤10;步骤13:将已提取的文献聚类从二次聚类初始训练集中移除,进入步骤8。 |