发明名称 一种基于元搜索的网络信息采集器简单实现方法
摘要 本发明提供一种基于元搜索的网络信息采集器简单实现方法,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。能及时发现最新信息,提供给用户用作分析的基础数据源。
申请公布号 CN103902667A 申请公布日期 2014.07.02
申请号 CN201410092387.8 申请日期 2014.03.14
申请人 浪潮电子信息产业股份有限公司 发明人 刘粉粉
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于元搜索的网络信息采集器简单实现方法,其特征在于集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块;生成采集起始URL模块生成搜索引擎搜索URL;模拟浏览器行为模块将访问网站行为伪装成浏览器的行为,实现采集的反屏蔽;搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息(标题、来源、发布时间、摘要、URL)提取;网页去重将提取到的搜索结果的URL进行去重,避免相同网站进行重复下载;网页正文抽模块下载并提取搜索结果的正文,将正文以及模块结构化的信息存储到数据库中。
地址 250014 山东省济南市高新区舜雅路1036号