发明名称 一种权威站点的挖掘方法及装置
摘要 本发明公开了一种权威站点的挖掘方法及装置,所述方法包括对用户输入的搜索词query进行分类;依据分类后的query在权威搜索引擎中搜索;依据搜索结果进行权威站点的挖掘。在本发明中,其通过对用户搜索词query进行分类,采用分类后的query到权威搜索引擎中去抓取搜索结果,然后对抓取的搜索结果进行站点打分,并最终通过本发明提供的权威站点挖掘算法最终挖掘出该类型query的权威站点,采用本发明,其自动挖掘与不同类型query相关的权威站点,可以提高权威站点挖掘的速度和准确性。
申请公布号 CN102880722B 申请公布日期 2015.08.05
申请号 CN201210394980.9 申请日期 2012.10.17
申请人 深圳市宜搜科技发展有限公司 发明人 周步恋;雷大伟;石志伟;车天文;杨振东;王更生;王喜民;何宏靖;徐忆苏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市凯达知识产权事务所 44256 代理人 任转英
主权项 一种权威站点的挖掘方法,其特征在于,包括:将用户输入的搜索词query分为不同类型;依据各不同类型的query在权威搜索引擎中搜索;依据搜索结果进行权威站点的挖掘;所述依据搜索结果进行权威站点的挖掘包括:解析每条query在权威搜索引擎中排名靠前的搜索结果,获取其相应的URL;依据至少一个站点名转换规则将所述URL转换成站点名;依据至少一个停用站点过滤规则过滤所述站点;依据至少一个站点评价策略对过滤后的站点进行打分;依据打分结果获取权威站点;所述依据打分结果获取权威站点包括,将打分结果与记录站点名的表进行关联以建立倒排表,并合并每条query在多个权威搜索引擎中的打分结果;在倒排表中,依据每个站点的打分情况对站点进行排序;依据排序情况获取权威站点;所述依据排序情况获取权威站点包括,依据站点名对应打分结果的大小,从大到小地将站点名放到一个初始为空的站点集合A中,将与站点名对应的query放到一个初始为空的集合B中,当集合B中的query数目与该类型的query的总数的比值达到一个预设阈值时,则停止向站点集合A和集合B中添加数据,且站点集合A中的站点列表就是与该类型的query相对应的权威站点。
地址 518026 广东省深圳市福田区滨河路与彩田路交汇处联合广场A栋塔楼A5501-A