发明名称 一种中文专利文献术语自动识别方法
摘要 本发明涉及一种中文专利文献术语自动识别方法,包括以下步骤:步骤1):基于专利标题自动生成词性规则;步骤2):手工构建停用词表;步骤3):对生成的所述词性规则按照所含词性的个数进行分类;步骤4):利用TermRank排序算法对候选术语进行排序。本发明首先利用统计学方法从专利标题中自动学出构成术语的词性规则,解决了人工总结术语词性规则的不足;采用TermRank排序方法对候选术语进行排序,综合考虑了专利文献中的语言学和统计学特征,能够较好的区分术语和非术语,具有较高的可靠性,可以很好地满足实际应用的需要。
申请公布号 CN105224520A 申请公布日期 2016.01.06
申请号 CN201510623936.4 申请日期 2015.09.28
申请人 北京信息科技大学 发明人 吕学强;董志安
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种中文专利文献术语自动识别方法,其特征在于,包括以下步骤:步骤1):基于专利标题自动生成词性规则,利用汉语词法分析系统将专利标题切分为子串和停用词,以所述停用词为分隔符,将所述子串的词性规则提取出,并将其作为生成候选术语的词性规则;步骤2):手工构建停用词表,将停用词加入停用词表中;步骤3):对生成的所述词性规则按照所含词性的个数进行分类,对每一类所述词性规则按照出现频率降序排列,并只取Top5条规则应用到中文专利文献的正文部分进行词性匹配,生成候选术语集合,然后将抽取出的候选术语按照所包含词的个数进行分类;步骤4):利用TermRank排序算法对候选术语进行排序,所述TermRank排序算法定义如公式(1)所示:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>T</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mfrac><mrow><msub><mi>TF</mi><msub><mi>T</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>C</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>|</mo><msub><mi>T</mi><mi>i</mi></msub><mo>|</mo><mo>&times;</mo><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FSA0000121541430000011.GIF" wi="1144" he="179" /></maths>其中,T<sub>i</sub>为候选术语,TR(T<sub>i</sub>)为候选术语T<sub>i</sub>的TermRank值;M为包含候选术语T<sub>i</sub>的专利文献数量;<img file="FSA0000121541430000012.GIF" wi="178" he="76" />为包含候选术语T<sub>i</sub>的专利文献d<sub>j</sub>中T<sub>i</sub>的词频;C(d<sub>j</sub>)为专利文献d<sub>j</sub>中抽取出的候选术语数量;|T<sub>i</sub>|为候选术语T<sub>i</sub>的长度,count(T<sub>i</sub>)为候选术语T<sub>i</sub>中包含的停用词数量;对候选术语列表中的每一个所述候选术语按照公式(1)计算其TermRank值,经排序后,取Top‑N条作为最终术语表。
地址 100192 北京市海淀区清河小营东路12号