发明名称 搜索引擎的虚假搜索行为的识别方法和装置
摘要 本发明公开了一种搜索引擎的虚假搜索行为的识别方法和装置,该搜索引擎用于搜索多媒体资源,该识别方法包括:从用户日志获取单一查询词的用户观看行为数据和单一查询词的用户转化行为数据;根据用户观看行为数据和/或用户转化行为数据确定用于识别虚假搜索行为的识别数据,识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及根据识别数据识别虚假搜索行为。本发明能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
申请公布号 CN105574199A 申请公布日期 2016.05.11
申请号 CN201511001301.7 申请日期 2015.12.28
申请人 合一网络技术(北京)有限公司 发明人 魏博;齐志兵;李力行;魏强;马堰夫;姚键;顾思斌;潘柏宇;王冀
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京林达刘知识产权代理事务所(普通合伙) 11277 代理人 刘新宇
主权项 一种搜索引擎的虚假搜索行为的识别方法,所述搜索引擎用于搜索多媒体资源,其特征在于,所述识别方法包括:从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个;根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及根据所述识别数据识别所述虚假搜索行为。
地址 100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区