发明名称 一种引文自动标引方法
摘要 本发明提供了一种引文自动标引方法,其特征是包括以下步骤:步骤1,对提交文档进行切割得到文本块,对文本块提取特征词句串或信息指纹;然后将特征词句串或信息指纹提交给检索引擎;步骤2,对于被提交的特征词句串或信息指纹,当检索引擎返回与特征词句串或信息指纹相应的搜索结果时,记录搜索结果作为相应文本块的引文出处,并记录文本块在文档中的终止位置,记录文本块的引文出处与终止位置的关联关系;步骤3,结合提交文档中已有引用标引和搜索结果去除重复的引文出处后,按照在提交文档中的位置前后关系对所有引文出处排序后进行标引。本发明克服了现有手工方法效率十分低下的弱点,提高了标引速度和准确性。
申请公布号 CN101539904A 申请公布日期 2009.09.23
申请号 CN200910061711.9 申请日期 2009.04.21
申请人 武汉大学 发明人 沈阳;沈劲枝;田晨耕
分类号 G06F17/24(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/24(2006.01)I
代理机构 武汉天力专利事务所 代理人 严 彦;冯卫平
主权项 1.一种引文自动标引方法,其特征是:包括以下步骤,步骤1,对提交文档进行切割得到文本块,对文本块提取特征词句串或信息指纹;然后将特征词句串或信息指纹提交给检索引擎;步骤2,对于被提交的特征词句串或信息指纹,当检索引擎返回与特征词句串或信息指纹相应的检索结果时,记录检索结果作为相应文本块的引文出处,并记录文本块在文档中的终止位置,记录文本块的引文出处与终止位置的关联关系;步骤3,结合提交文档中已有引用标引和检索结果去除重复的引文出处后,按照在提交文档中的位置前后关系对所有引文出处排序后进行标引;所述结合提交文档中已有引用标引和检索结果去除重复的引文出处具体实现方式如下,从提交文档中提取已有引用标引的相关信息,与步骤2所得检索结果的相关信息比较,所述已有引用标引的相关信息包括已有引用标引的引用标记位置、引文出处、引用标记位置和引文出处的关联关系,所述检索结果的相关信息即文本块在文档中的终止位置、文本块的引文出处,以及文本块的引文出处与终止位置的关联关系;当出现重复的引文出处时,根据引用标记位置和引文出处的关联关系或文本块的引文出处和终止位置的关联关系,查到与引文出处相应的已有引用标引的引用标记位置或文本块在文档中的终止位置,保留位置在提交文档内最前的一条引文出处,其它重复的引文出处去除;所述按照在提交文档中的位置前后关系对所有引文出处排序后,进行标引的具体实现方式如下,在文档中按照排序在已有引用标引的引用标记位置或文本块的终止位置添加引用标记,并根据引用标记位置和引文出处的关联关系或文本块的引文出处与终止位置的关联关系将引文出处添加到提交文档中。
地址 430072湖北省武汉市武昌珞珈山