发明名称 一种文本文档主题词义的自动提取方法
摘要 本发明涉及一种文本文档主题词义的自动提取方法,包括:首先对训练文本文档集和测试文本文档集进行文本文档预处理,得到训练文本文档集和测试文本文档集中每一篇文本文档的候选主题词义集合;然后,分别计算每一个候选主题词义的特征属性值;最后,利用贝叶斯模型抽取测试文本文档集中每一篇文本文档的最终的主题词义。本发明的整个过程采用词义代替词进行主题意思的提取,避免了一词多义性带来的不准确性,应用本发明可以提高主题意思提取的精度。
申请公布号 CN101887415A 申请公布日期 2010.11.17
申请号 CN201010210106.6 申请日期 2010.06.24
申请人 西北工业大学 发明人 方俊;郭雷;常威威
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 1.一种文本文档主题词义的自动提取方法,其特征在于步骤如下:(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理,得到每篇文本文档的候选主题词义集合;所述的预处理包括以下步骤:步骤a:提取文本文档的候选主题词集合:首先,去除文本文档中的数字和标点符号,将文本文档切分成现有词的集合;然后,去除集合中不满足条件的词;最后,将剩余词中的大写字母转换为小写字母,并去掉词的前缀和后缀,得到文本文档的候选主题词集合;所述的条件为:组成词的字母个数小于预设值,或至少有一个小写字母,或非停用词;所述的非停用词是指停用词以外的所有词,所述的停用词是虚词;所述的预设值为15个字母;步骤b:采用消岐算法获取文本文档的候选主题词义集合:首先,在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主题词的上下文;所述的W的取值范围为[6,10];然后,按语义相关度计算公式<img file="FSA00000175174700011.GIF" wi="1313" he="123" />计算每个候选主题词的第k个可能词义s<sub>k</sub>和该候选主题词的第i个上下文c<sub>i</sub>的语义相关度rel(s<sub>k</sub>,c<sub>i</sub>),并按<img file="FSA00000175174700012.GIF" wi="631" he="120" />计算候选主题词的第k个可能词义s<sub>k</sub>与该候选主题词的所有上下文的总的语义相关度SenseScore(s<sub>k</sub>);其中,k=1,2,…,K,K为候选主题词的可能词义的个数;i=1,2,…,I,I为候选主题词的上下文的个数;wordNumInGlossOfs<sub>k</sub>表示s<sub>k</sub>的WordNet释义包含的单词个数,wordNumInGlossOfc<sub>i</sub>表示c<sub>i</sub>的WordNet释义包含的单词个数,NumOfOverlaps_s<sub>k</sub>c<sub>i</sub>表示s<sub>k</sub>的WordNet释义和c<sub>i</sub>的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义;最后,选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候选主题词义,得到文本文档的候选主题词义集合;步骤c:合并候选主题词义:按语义相关度计算公式<img file="FSA00000175174700021.GIF" wi="1333" he="137" />计算候选主题词义集合中任意两个候选主题词义<img file="FSA00000175174700022.GIF" wi="43" he="59" />和<img file="FSA00000175174700023.GIF" wi="38" he="58" />的语义相关度,并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个;所述的阈值λ的取值范围为[0.5,0.8];其中,<img file="FSA00000175174700024.GIF" wi="290" he="64" /><img file="FSA00000175174700025.GIF" wi="281" he="65" />p≠q,<img file="FSA00000175174700026.GIF" wi="36" he="64" />为候选主题词义集合中候选主题词义的个数;<img file="FSA00000175174700027.GIF" wi="454" he="58" />表示<img file="FSA00000175174700028.GIF" wi="41" he="59" />的WordNet释义包含的单词个数,<img file="FSA00000175174700029.GIF" wi="449" he="58" />表示<img file="FSA000001751747000210.GIF" wi="37" he="59" />的WordNet释义包含的单词个数,<img file="FSA000001751747000211.GIF" wi="462" he="59" />表示<img file="FSA000001751747000212.GIF" wi="41" he="59" />的WordNet释义和<img file="FSA000001751747000213.GIF" wi="36" he="60" />的WordNet释义所包含的单词中相同单词的个数;(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值;所述的特征属性包括:侯选主题词义在文本文档中出现的频率tf×idf、侯选主题词义在文本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数len和候选主题词义之间的内聚性coh;所述的侯选主题词义在文本文档中出现的频率tf×idf的计算公式为:<maths num="0001"><![CDATA[<math><mrow><mi>tf</mi><mo>&times;</mo><mi>idf</mi><mrow><mo>(</mo><msub><mi>cs</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>cs</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&times;</mo><mi>log</mi><mfrac><mrow><mo>|</mo><mi>D</mi><mo>|</mo></mrow><mrow><mo>|</mo><mi>D</mi><mrow><mo>(</mo><msub><mi>cs</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow></math>]]></maths>其中,cs<sub>j</sub>为文本文档的候选主题词义集合中的第j个候选主题词义,j=1,2,…,J,J为文本文档的候选主题词义集合中候选主题词义的个数;f(cs<sub>j</sub>)为cs<sub>j</sub>在文本文档中出现的次数,D表示文本文档集,|D|为D中的文本文档篇数,|D(cs<sub>j</sub>)|为在D中包含候选主题词义cs<sub>j</sub>的文本文档篇数;所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为:fo(cs<sub>j</sub>)=O<sub>first</sub>/J其中,O<sub>first</sub>为候选主题词义cs<sub>j</sub>在文本文档中第一次出现的位置;所述的候选主题词义之间的内聚性coh的计算公式为:<maths num="0002"><![CDATA[<math><mrow><mi>coh</mi><mrow><mo>(</mo><msub><mi>cs</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>l</mi><mo>&NotEqual;</mo><mi>j</mi></mrow><mi>J</mi></munderover><mi>rel</mi><mrow><mo>(</mo><msub><mi>cs</mi><mi>j</mi></msub><mo>,</mo><msub><mi>cs</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>J</mi><mo>-</mo><mn>1</mn></mrow></mfrac></mrow></math>]]></maths>其中,rel(cs<sub>j</sub>,cs<sub>l</sub>)为按语义相关度计算公式<img file="FSA00000175174700033.GIF" wi="1397" he="133" />计算得到的文本文档的候选主题词义集合中候选主题词义cs<sub>j</sub>和候选主题词义cs<sub>l</sub>的语义相关度;wordNumInGlossOfcs<sub>j</sub>表示cs<sub>j</sub>的WordNet释义包含的单词个数,wordNumInGlossOfcs<sub>l</sub>表示cs<sub>l</sub>的WordNet释义包含的单词个数,NumOfOverlaps_cs<sub>j</sub>cs<sub>l</sub>表示cs<sub>j</sub>的WordNet释义和cs<sub>l</sub>的WordNet释义所包含的单词中相同单词的个数;(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集合:首先,按Pr=Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]计算测试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr;其中,Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率,Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例;然后,将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序;最后,选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的主题词义集合。
地址 710072 陕西省西安市友谊西路127号