发明名称 一种语义冗余的确定方法和装置、对应的搜索方法和装置
摘要 本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置,其中语义冗余的确定方法包括:S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况,为query的去冗余提供基础。利用去冗余后的query进行搜索,使得冗余的关键词不必参与匹配,提高了搜索结果的召回率,提高了搜索效果。
申请公布号 CN103390004A 申请公布日期 2013.11.13
申请号 CN201210147154.4 申请日期 2012.05.11
申请人 北京百度网讯科技有限公司 发明人 方高林
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种语义冗余的确定方法,其特征在于,该方法包括:S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。
地址 100085 北京市海淀区上地十街10号百度大厦2层