发明名称 科技术语的自动化抽取方法
摘要 一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。本方法是基于词性标注的基本信息,采用基于规则的手段,从汉语词组构词法的角度出发,自动判别并抽取出可能成词的中文术语,并在人工辅助的基础上,对术语真实性进行判断和确认。主要步骤包括:按照领域建立不同的专利文献库;以特定专利文献库为训练语料库提取重复串,用基础词汇对重复串进行切分和词性标注,然后利用中文的词法规则,对重复串的边界进行反复检验,直到可接受为候选术语为止。为进一步核实候选术语,可再由人工辅助确认。
申请公布号 CN101655866A 申请公布日期 2010.02.24
申请号 CN200910162380.8 申请日期 2009.08.14
申请人 北京中献电子技术开发中心 发明人 王进;张素兰;贾学杰;任丽;王永生;张迁;王婷婷
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1、一种科技术语抽取方法,包括以下步骤:步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语;步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。
地址 100088北京市海淀区马甸南村1号