发明名称 互联网人物信息的搜索方法及系统
摘要 本发明提供了一种互联网人物信息的搜索方法及系统,其中上述方法包括:获取目标人物信息的查询关键词;将查询关键词处理成元搜索系统所需的搜索请求参数;启动元搜索系统集成的搜索引擎进行搜索;提取搜索结果集合的摘要线索;下载搜索结果集合的相关页面;提取下载页面的正文线索;优选由摘要线索和正文线索组成的线索集合;将优选线索集合作为下一轮搜索的入口参数,重复上述步骤,进行迭代搜索、线索收集;对经过多次迭代搜索、优选后的线索集合进行关联分析,生成虚拟人物的身份信息。本发明提供的基于迭代搜索和关联分析的互联网人物信息搜索方法,能充分利用公共搜索引擎的强大数据收集能力,扩大有效数据的覆盖面,得到准确虚拟人物信息。
申请公布号 CN102968510B 申请公布日期 2016.05.11
申请号 CN201210560062.9 申请日期 2012.12.21
申请人 厦门市美亚柏科信息股份有限公司 发明人 王慧昌;杨宏辉;林胜通;郑汉军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京恒都律师事务所 11395 代理人 邸建凯
主权项 一种互联网人物信息的搜索方法,其特征在于,包括:获取目标人物信息的查询关键词;将所述查询关键词处理成元搜索系统所需的搜索请求参数;启动元搜索系统集成的公共搜索引擎和站内搜索引擎进行搜索;提取搜索结果集合的摘要线索;下载所述搜索结果集合的相关页面;提取下载页面的正文线索;优选由所述摘要线索和所述正文线索组成的线索集合以及外部接口提供的人物资源线索数据库,得到优选线索集合;将优选线索集合作为下一轮搜索的入口参数,重复上述步骤,进行迭代搜索、线索收集;对经过多次迭代搜索、优选后的线索集合以及外部接口提供的人物资源库线索数据,采用基于频繁模式树增长算法的关联规则进行关联分析,生成虚拟人物的身份信息;所述线索包括识别虚拟人物身份的关键属性和辅助定位用的属性,所述识别虚拟人物身份的关键属性包括电话号码、QQ号码、电子邮箱和网络账号,所述辅助定位用的属性包括URL、时间和地址。
地址 361008 福建省厦门市软件园二期观日路12号美亚柏科大厦