发明名称 |
一种权威站点的挖掘方法及装置 |
摘要 |
本发明公开了一种权威站点的挖掘方法及装置,所述方法包括对用户输入的搜索词query进行分类;依据分类后的query在权威搜索引擎中搜索;依据搜索结果进行权威站点的挖掘。在本发明中,其通过对用户搜索词query进行分类,采用分类后的query到权威搜索引擎中去抓取搜索结果,然后对抓取的搜索结果进行站点打分,并最终通过本发明提供的权威站点挖掘算法最终挖掘出该类型query的权威站点,采用本发明,其自动挖掘与不同类型query相关的权威站点,可以提高权威站点挖掘的速度和准确性。 |
申请公布号 |
CN102880722B |
申请公布日期 |
2015.08.05 |
申请号 |
CN201210394980.9 |
申请日期 |
2012.10.17 |
申请人 |
深圳市宜搜科技发展有限公司 |
发明人 |
周步恋;雷大伟;石志伟;车天文;杨振东;王更生;王喜民;何宏靖;徐忆苏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市凯达知识产权事务所 44256 |
代理人 |
任转英 |
主权项 |
一种权威站点的挖掘方法,其特征在于,包括:将用户输入的搜索词query分为不同类型;依据各不同类型的query在权威搜索引擎中搜索;依据搜索结果进行权威站点的挖掘;所述依据搜索结果进行权威站点的挖掘包括:解析每条query在权威搜索引擎中排名靠前的搜索结果,获取其相应的URL;依据至少一个站点名转换规则将所述URL转换成站点名;依据至少一个停用站点过滤规则过滤所述站点;依据至少一个站点评价策略对过滤后的站点进行打分;依据打分结果获取权威站点;所述依据打分结果获取权威站点包括,将打分结果与记录站点名的表进行关联以建立倒排表,并合并每条query在多个权威搜索引擎中的打分结果;在倒排表中,依据每个站点的打分情况对站点进行排序;依据排序情况获取权威站点;所述依据排序情况获取权威站点包括,依据站点名对应打分结果的大小,从大到小地将站点名放到一个初始为空的站点集合A中,将与站点名对应的query放到一个初始为空的集合B中,当集合B中的query数目与该类型的query的总数的比值达到一个预设阈值时,则停止向站点集合A和集合B中添加数据,且站点集合A中的站点列表就是与该类型的query相对应的权威站点。 |
地址 |
518026 广东省深圳市福田区滨河路与彩田路交汇处联合广场A栋塔楼A5501-A |