发明名称 一种文献作者重名检测方法
摘要 本发明公开了一种文献作者重名检测方法,属于数据挖掘技术领域。本发明方法充分利用了科技文献中单特征相似度以及单特征融合在对重名作者进行消歧的特点,首先对要使用到的文献对象进行建模,其次利用一种单特征相似度检测方法计算两两单特征的相似度,然后利用基于单特征相似度的消歧方法计算每一个单特征的鉴别力,在此基础上设计多特征融合的消歧规则,并提出一种文献作者重名检测方法。由于本检测方法融合了单特征各自在进行作者实体消歧时的优点,使得方法在识别过程中具有较好的精确度和召回率。
申请公布号 CN106021424A 申请公布日期 2016.10.12
申请号 CN201610320129.X 申请日期 2016.05.13
申请人 南京邮电大学 发明人 徐小龙;李永萍;孙雁飞;杨维荣;王勇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 李湘群
主权项 一种文献作者重名检测方法,其特征在于包括如下步骤:步骤1:判断初始训练集是否为空,如果为空,进入步骤7,否则,则进入步骤2;步骤2:从初始训练集中提取一个文献聚类,判断终止训练集是否为空,若不为空,则进入步骤4,若为空,进入步骤3;步骤3:将从初始训练集中提取的文献聚类添加到终止训练集,进入步骤2;步骤4:从终止训练集中提取文献聚类,进入步骤5;步骤5:判断从初始训练集中提取的文献聚类与从终止训练集中提取的文献聚类是否满足消歧规则,若满足条件,则合并两个文献聚类,进入步骤6,若不满足,进入步骤3;步骤6:将已经提取的文献聚类从初始训练集中移除,进入步骤1;步骤7:进行二次聚类,将终止训练集赋值给二次聚类的初始聚类,进入步骤8;步骤8:判断二次聚类的初始训练集是否为空,若为空,算法结束,否则进入步骤9;步骤9:从二次聚类的初始训练集中提取一个文献聚类,判断二次聚类的终止训练集是否为空,若不为空,则进入步骤11,若为空,进入步骤10;步骤10:将提取的文献聚类添加到二次聚类的终止训练集中,进入步骤9;步骤11:逐次从终止训练集中提取文献聚类,进入步骤12;步骤12:对二次聚类初始训练集提取的文献聚类与终止训练集的文献聚类进行合作者相似度判断,若结果满足相似度阈值,则合并两个文献聚类,进入步骤13,若不满足,进入步骤10;步骤13:将已提取的文献聚类从二次聚类初始训练集中移除,进入步骤8。
地址 210023 江苏省南京市栖霞区文苑路9号