发明名称 一种基于互联网的舆情数据采集方法及系统
摘要 本发明提供了一种基于互联网的舆情数据采集方法及系统,该方法包括:监视网络爬虫的状态,根据网络爬虫的状态调度每个网络爬虫,对预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址,对互联网中其他网站内容的屏蔽;将网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;采用网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取,下载网页内容;为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并存入预设的索引数据库。本发明通过对舆情数据的重点网站进行定向采集、完成对舆情信息的智能搜索,避免爬虫资源的无端浪费,增强舆情数据获取能力。
申请公布号 CN104951512A 申请公布日期 2015.09.30
申请号 CN201510280104.7 申请日期 2015.05.27
申请人 中国科学院信息工程研究所 发明人 冯志杰;陈彦舟;李彬;邓明;崔苏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 李相雨
主权项 一种基于互联网的舆情数据采集方法,其特征在于,所述方法包括:实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。
地址 100093 北京市海淀区闵庄路甲89号