发明名称 |
一种语义冗余的确定方法和装置、对应的搜索方法和装置 |
摘要 |
本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置,其中语义冗余的确定方法包括:S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况,为query的去冗余提供基础。利用去冗余后的query进行搜索,使得冗余的关键词不必参与匹配,提高了搜索结果的召回率,提高了搜索效果。 |
申请公布号 |
CN103390004A |
申请公布日期 |
2013.11.13 |
申请号 |
CN201210147154.4 |
申请日期 |
2012.05.11 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
方高林 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种语义冗余的确定方法,其特征在于,该方法包括:S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |