发明名称 一种新型的中文科技文献半自动标引方法
摘要 本发明提供了一种新型的中文科技文献半自动标引方法,包括:对用户需要标注的文献集合的被引文献进行获取,获取被引文献集合;对被引文献集合中每篇文献进行标注,获得标注的被引文献;对被引文献集合中文献之间的引用关系网络进行构建,获得所述被引文献集合中文献之间的引用关系网络;对用户需要标注的文献集合中的文献进行迭代标注,直到所述需要标注的文献集合中的每篇文献都被标注;该方法能够有效的解决目前中文科技文献自动标引方法中存在的标引效率低、不准确的缺陷。
申请公布号 CN102831134B 申请公布日期 2015.02.25
申请号 CN201110424369.1 申请日期 2011.12.16
申请人 中国科学技术信息研究所 发明人 刘伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市盛峰律师事务所 11337 代理人 赵建刚
主权项 一种新型的中文科技文献半自动标引方法,其特征在于,包括:对用户需要标注的文献集合的被引文献进行获取,获取被引文献集合;对被引文献集合中每篇文献进行标注,获得标注的被引文献;对被引文献集合中文献之间的引用关系网络进行构建,获得所述被引文献集合中文献之间的引用关系网络;对用户需要标注的文献集合中的文献进行迭代标注,直到所述需要标注的文献集合中的每篇文献都被标注,包括:初始化标引文献集合;对用户需要标引文献集合中的每一篇文献进行迭代标引;若该文献的参考文献都已经被标引,则执行对该文献进行标引的操作;包括:对用户需要标引文献集合中的每一篇文献进行迭代标引;若该文献的参考文献都已经被标引,则计算该文献的参考文献集合中每一篇文献的标引权重,获得所述参考文献集合中的每一篇文献的标引权重值;对候选标引词集合进行获取,获得所述候选标引词集合;计算所述候选标引词集合中的每个词的权重,获得所述候选标引词集合中的每个词的权重值;选取所述候选标引词集合中权重值最大的6个词作为相应文献的标引词,完成执行对该文献进行标引的操作;将经过标引的文献从标引文献集合中取出,同时将该经过标引的文献放入到相应的标引文献集合和相应的被引文献集合;若需要标引文献集合不为空,则执行从对用户需要标引文献集合中的每一篇文献进行迭代标引到将经过标引的文献从标引文献集合中取出,同时将该经过标引的文献放入到相应的标引文献集合和相应的被引文献集合的循环操作,直到需要标引文献集合为空,则完成对用户需要标注的文献集合的文献进行迭代标注的全过程;若需要标引文献集合为空,则执行对所有文献进行标引的操作步骤,获得标引文献集合;将所述获得的标引文献集合输出,完成对用户需要标引的文献集合中的文献进行迭代标引的全过程;其中,所述对所有文献进行标引是首先对所有文献构建它们的引用关系网络,在关系网络中选择入度为0的节点进行标注,然后从引用关系网络中删除该节点,再选择下一个选择入度为0的节点进行标注,重复这个过程,直到所有节点都被标注。
地址 100038 北京市海淀区复兴路15号
您可能感兴趣的专利