发明名称 作者所发英文文献的作者机构信息抽取方法
摘要 一种作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取作者所在机构的中文名称信息,包括:利用网络爬虫从英文文献库中获取作者发表的所有相关英文论文的题录信息;从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;对作者机构信息进行处理,将其对应到作者机构的标准中文名称;将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。
申请公布号 CN104881398A 申请公布日期 2015.09.02
申请号 CN201410437424.4 申请日期 2014.08.29
申请人 北京大学 发明人 王继民;郭鑫;姜庆远;王一博;程煜华
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I;G06F17/28(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人 朱红涛
主权项 一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,其特征是,包括以下步骤:步骤一:利用网络爬虫从英文文献库中下载中国作者发表的所有相关英文论文的题录信息;步骤二:从下载的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;步骤三:对作者机构信息进行处理,将其对应到作者机构的标准中文名称,具体包括以下步骤:3.1)将同一条题录信息中的不同机构分成多个机构条目,分别进行以下处理;3.2)根据机构条目中包含的地址信息进行判断,如果属于中国的机构,继续进行后面的处理,否则舍弃该条记录;3.3)对机构条目进行数据处理,删除掉机构条目中包含的作者名称等无关信息;根据保存同义词映射关系的数据字典对数据进行同义转换;3.4)按照“大学”>“科学院”>“其他”的优先级顺序,抽取机构名称;3.5)通过搜索引擎获取作者机构的标准英文名称;3.6)通过搜索引擎或机器翻译工具将标准英文名称翻译为对应的中文名称;步骤四:将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。
地址 100871 北京市海淀区颐和园路5号