发明名称 |
相关性可改善的搜索词的识别方法及装置 |
摘要 |
本发明提供了一种相关性可改善的搜索词的识别方法,包括:统计匿名用户在一定时间段内的用户行为特征;从统计的用户行为特征中查找各搜索词对应的用户行为特征,并形成搜索词‑用户行为特征的对应关系;利用相关性策略分别对各组搜索词‑用户行为特征的内容进行处理,得到各组搜索词‑用户行为特征的相关性值;识别出相关性值低于第一阈值的搜索词,记录为相关性可改善的搜索词。采用本发明能够识别出相关性需要改善的搜索词,进而便于搜索引擎对识别出的搜索词进行搜索结果的改善。 |
申请公布号 |
CN104699846B |
申请公布日期 |
2017.05.03 |
申请号 |
CN201510150546.X |
申请日期 |
2015.03.31 |
申请人 |
北京奇元科技有限公司 |
发明人 |
陶哲 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京智汇东方知识产权代理事务所(普通合伙) 11391 |
代理人 |
康正德;孙晓芳 |
主权项 |
一种相关性可改善的搜索词的识别方法,包括:统计匿名用户在一定时间段内的用户行为特征;从统计的用户行为特征中查找各搜索词对应的用户行为特征,并形成搜索词与用户行为特征的对应关系,将所述对应关系记为搜索词‑用户行为特征;对于各组搜索词‑用户行为特征,利用相关性策略对与搜索词具有对应关系的用户行为特征的内容进行处理,得到各组搜索词‑用户行为特征的搜索词与用户行为特征间的相关性值;识别出相关性值低于第一阈值的搜索词,记录为相关性可改善的搜索词;识别出相关性可改善的搜索词之后,所述方法还包括:计算各相关性可改善的搜索词的表意价值;对于表意价值低于第二阈值的搜索词,将其过滤掉;其中,所述计算各相关性可改善的搜索词的表意价值,包括:解析各相关性可改善的搜索词,得到其包含的至少一个实体词;利用各实体词的词性得分值与其在其对应的相关性可改善的搜索词中的出现频度进行加权,得到各相关性可改善的搜索词的加权值;根据第二预设规则对各相关性可改善的搜索词的加权值进行处理,计算得到各相关性可改善的搜索词的表意价值。 |
地址 |
100015 北京市朝阳区酒仙桥路甲10号3号楼15层17层1701-15B |