发明名称 一种语义增强的词对间关系测度的控制方法以及系统
摘要 本发明提供一种新颖的测量词对间关系相似度的方法,该方法结合语料库和语义词典来实现。对于英文研究对象,使用语料库来抓取含有种子词对的网页内容,并从中提取满足以种子词开头或结尾并且长度不超过一定阈值的短语然后生成相应的模式,其中最重要的是指定了词性变换规则并且考虑了种子词的所有词性的变换词。在后续模式中间词的统计中,过滤了停用词、数字、专有名词等一些不能体现语义的词语以消除噪音和节约计算开销。另一方面,采用经典的语义相关度测量算法来计算种子词对各自的中间词两两之间的语义相关度。对于中文研究对象,不需要考虑词性变换的情况、对于生成的模式要进行分词处理。这种方法不局限于固定不变的语料库,还可以获取较新的语义资源,而且借助语义词典能很好地挖掘出了词对间的语义关系。
申请公布号 CN102609413A 申请公布日期 2012.07.25
申请号 CN201110003194.7 申请日期 2011.01.09
申请人 华东师范大学 发明人 吕钊;曹艳娇;蔡颂梅;李琴;梁璐;俞云飞;黄小霞;严东宾
分类号 G06F17/30(2006.01)I;G06F17/28(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 隆天国际知识产权代理有限公司 72003 代理人 吴世华;冯志云
主权项 1.一种语义增强的词对间关系测度的控制方法,其用于对一语料库内的英文单词词对或汉语单词词对间的关系相似度进行测评,其特征在于,包括如下步骤:a.获取第一组词对,所述词对包括第一单词以及第二单词,所述第一单词以及所述第二单词优选地存在于所述语料库内;b.以所述词对为关键词“第一单词第二单词”的形式在所述语料库中进行检索,并将检索结果储存至第一中间结果;c.通过制定的单词变换规则确定所有第一单词模式元素词语,将其作为第一单词模式元素集合,并相应地建立第二单词模式元素集合;d.分别针对所述第一单词模式元素集合中的每一个第一单词模式元素词语,以及所述第二单词模式元素集合中的每一个第二单词模式元素词语,对所述第一中间结果中所述第一单词模式元素词语与所述第二单词模式元素词语之间的词语进行统计,将其结果作为所述第一组词对的中间词集合;e.获取第二组词对,并执行步骤a至d,最终获得所述第二组词对的中间词集合;f.根据语义相关度测度算法计算所述第一组词对的中间词集合中任一个中间词与所述第二组词对的中间词集合中任一个中间词的语义相关度值,并相适应地保存任两个中间词的所述语义相关度值。g.采用如下公式计算所述第一组词对以及所述第二组词对的关系相似度值:<maths num="0001"><![CDATA[<math><mrow><mi>RS</mi><mrow><mo>(</mo><mi>A</mi><mo>:</mo><mi>B</mi><mo>:</mo><mo>:</mo><mi>C</mi><mo>:</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mrow><mi>m</mi><mo>,</mo><mi>n</mi></mrow></msubsup><msup><mrow><mo>(</mo><mi>rel</mi><mrow><mo>(</mo><msub><mi>w</mi><msub><mi>AB</mi><mi>i</mi></msub></msub><mo>,</mo><msub><mi>w</mi><msub><mi>CD</mi><mi>j</mi></msub></msub><mo>)</mo></mrow><mo>-</mo><mi>rel</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mi>m</mi><mo>*</mo><mi>n</mi></mrow></mfrac></mrow></math>]]></maths>其中,RS代表第一组词对A∶B和第二组词对C∶D间的关系相似度,<img file="FDA0000043177830000012.GIF" wi="310" he="88" />是借助某一语义相关度测度算法计算的第一组词对的任一中间词和第二组词对的任一中间词间的语义相关度值;rel是两个词对的所有中间词间的语义相关度值的算术平均值;变量m和n分别是第一组词对和第二组词对中统计的中间词的个数。
地址 200241 上海市闵行区东川路500号