发明名称 |
词语提取方法及装置 |
摘要 |
本发明公开了一种词语抽取方法,属于信息检索领域。所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据文档信息计算每个候选词语的词频TF和反向文档频率IDF;根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。本发明通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。 |
申请公布号 |
CN103514213A |
申请公布日期 |
2014.01.15 |
申请号 |
CN201210218450.9 |
申请日期 |
2012.06.28 |
申请人 |
华为技术有限公司 |
发明人 |
贾江涛;顾翀 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三高永信知识产权代理有限责任公司 11138 |
代理人 |
黄厚刚 |
主权项 |
一种词语抽取方法,其特征在于,所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |