发明名称 |
一种词汇语义褒贬获得方法、系统及装置 |
摘要 |
本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。 |
申请公布号 |
CN101315625A |
申请公布日期 |
2008.12.03 |
申请号 |
CN200710099802.2 |
申请日期 |
2007.05.30 |
申请人 |
北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学 |
发明人 |
路斌;万小军;杨建武;吴於茜;陈晓鸥 |
分类号 |
G06F17/30(2006.01);G06F17/27(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京同达信恒知识产权代理有限公司 |
代理人 |
李娟 |
主权项 |
1、一种词汇语义褒贬的确定方法,其特征在于,包括以下步骤:通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;并且根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。 |
地址 |
100871北京市海淀区成府路298号中关村方正大厦513 |