发明名称 一种基于词频和多元文法的新闻关键词抽取方法
摘要 一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。
申请公布号 CN101196904A 申请公布日期 2008.06.11
申请号 CN200710177074.2 申请日期 2007.11.09
申请人 清华大学 发明人 李涓子;樊绮娜;李军;唐杰;张鹏;许斌
分类号 G06F17/30(2006.01);G06F17/27(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京思海天达知识产权代理有限公司 代理人 楼艮基
主权项 1.一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤:步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式:步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下:步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值:词频:分别以三个特征值w.tf、w.ctf、termSum表示:w.tf:w在所在新闻文本中的出现次数,其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;w.ctf:w在所述某个新闻文本集中出现的总次数;termSum:在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三元文法字的词频总和;文本位置:分别用w.inTitle及w.inFirst表示,其中:w.inTitle:表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;w.inFirst:表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;词性:用w.POS表示,指词w的词性;形态:分别用w.quo、w.sign表示,其中:w.quo:表示引用强调,是指词w是否被包括引号、书名号在内的符号括起来,w.quo=0表是否,w.quo=1表是肯定;w.sign:表示词w的长度,按式Se(w)=g(x)计算得出,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x;当x>8时,g(x)=3;步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下:步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理:步骤(4.2.1)设定以下四个识别检测的指标:最大重复:设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的;完整:设p<sub>1</sub>,p<sub>2</sub>,...,p<sub>k</sub>为字串S在文本T中出现的k个不同位置,当且仅当下列条件同时成立时,S是完整的;1)至少有一个位置序号对(i,j),1≤i<j≤k,使第(p<sub>i</sub>-1)个字与第(p<sub>j</sub>-1)个字不同;2)至少有一个位置序号对(i,j),1≤i<j≤k,使第(p<sub>j</sub>+|S|)个字与第(p<sub>j</sub>+|S|)个字不同,其中|S|为字串S的长度值;稳定度:设S=”c<sub>1</sub>c<sub>2</sub>......c<sub>p</sub>”,则S的稳定度定义为<maths num="0001"><![CDATA[<math><mrow><mi>MI</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>L</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>R</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>f</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>S<sub>L</sub>=”c<sub>1</sub>c<sub>2</sub>......c<sub>p</sub>-1”,S<sub>R</sub>=”c<sub>2</sub>......c<sub>p</sub>”,f(S),f(S<sub>L</sub>),f(S<sub>R</sub>)分别是S,S<sub>L</sub>,S<sub>R</sub>在潜在关键词所在文本中出现的频率;相对频率:设S是潜在关键词文本中的一个字串,则S的相对频率为<img file="S2007101770742C00031.GIF" wi="165" he="98" />w为该文本中所出现的所有词。f(W)为词w在该文本中出现的频率;步骤(4.2.2)根据以下4个必须同时满足的条件,把标题中的潜在关键词字串挖掘出来:1)不能是单个字;2)必须是最大重复的和完整的;3)稳定度至少为t。当字符数为2时,t=0.38;当字符数为3时,t=0.67;该字符数有其他值时,t=0.8;4)频率至少为3,相对频率大于等于0.021;然后,把潜在关键词作为候选词,加入到关键词候选集中,把这些潜在关键词的特征值算出,对标题中其他已被ICTCLAS分词工具发现的及不适合的词去掉;步骤(5)计算机按下式进行特征拟合,根据计算出的特征分值score(w)得出候选关键词的排名次序:所有候选关键词集合中,各个关键词的特征分值score(w)按下式算出:<maths num="0002"><![CDATA[<math><mrow><mi>score</mi><mrow><mo>(</mo><mi>w</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mi>w</mi><mo>.</mo><mi>tf</mi><mo>)</mo></mrow><msub><mi>t</mi><mn>1</mn></msub></msup><mo>*</mo><mrow><mo>(</mo><mn>1</mn><mo>+</mo><munder><mi>&Sigma;</mi><mrow><mi>fi</mi><mo>&Element;</mo><mi>F</mi></mrow></munder><mi>w</mi><mo>.</mo><mi>fi</mi><mo>*</mo><msub><mi>t</mi><mi>fi</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>ln</mi><mfrac><msup><mi>termSum</mi><msub><mi>t</mi><mn>2</mn></msub></msup><mrow><mi>w</mi><mo>.</mo><msup><mi>ctf</mi><msub><mi>t</mi><mn>3</mn></msub></msup></mrow></mfrac></mrow></math>]]></maths>其中:t<sub>1</sub>,t<sub>2</sub>和t<sub>3</sub>分别是w.tf,termSum和w.ctf的权重,具体为t<sub>1</sub>=0.99,t<sub>2</sub>=1.0,t<sub>3</sub>=0.95;F={inTitle,quo,inFirst,sign}是一组特征;w.inTitle的权重t<sub>inTitle</sub>=2.3;w.quo的权重t<sub>quo</sub>=2.3;w.inFirst的权重t<sub>inFirst</sub>=0.01;w.sign的权重t<sub>sign</sub>=0.85;w.fi为F中的某一特征;t.fi为相应特征w.fi的权重;从而得到各项候选词的一个特征分值score(w);步骤(6)计算机优化结果,得出关键词:步骤(6.1)对特征分值最高的5个关键词按下述方法进行评测;步骤(6.2)删除单项特征过低,以及存在包含或重复现象的关键词,使最终所得关键词保持各项特征分值均达到优良;步骤(6.2.1)稳定度的要求和字串的长度相关,越长的字串,它的稳定度要求越严格,检测词的稳定度,按照下述标准删除稳定度过低的词;1)候选词的二元及三元文法中的长度大于5且稳定度少于0.8的词;2)稳定度少于0.5且词频太低,或是没有在标题或第一段中出现的词;步骤(6.2.2)检测关键词之间是否存在重叠或包含的现象,如果存在,则会根据下述标准决定是否删去其中的一个词,为了便于叙述,在这里我们统称存在重叠或包含现象的两词中长度值较大的词为长词,长度值较短的词为短词;1)被引用强调的词优先保留,2)若长词的特征分值高于短词的特征分值:a)保留长词;b)若长词被引用强调,长词的词频小于短词的词频,短词的长度大于1,长词为一元文法的词,以上四个条件同时成立时,则短词也被保留;3)若短词的特征分值高于长词的特征分值:a)若短词的长度等于1,长词被引用强调,短词是实体关键词或主题关键词,长词的词频小于短词的词频,以上四个条件中任意某一条件成立时,则保留长词,去掉短词;否则:b)若长词是通过新词发现找到的,或是三元文法的词,则去掉长词;否则:c)同时保留长词和短词;步骤(6.3)把特征分值次低的关键词前移一位,重新执行步骤(6.2),直到最高特征分值的5个关键词同时满足要求或无候选关键词为止。
地址 100084北京市海淀区清华园