发明名称 并行化分布式网络舆情数据管理方法及系统
摘要 本发明提出一种并行化分布式网络舆情数据管理方法及系统,其中该方法包括:对互联网数据进行抓取;对互联网数据进行抽取;存储和展示抓取和抽取得到的互联网舆情数据;以及对互联网舆情数据的索引和查询进行优化。本发明的方法和系统具有效率较高的优点。
申请公布号 CN102945270B 申请公布日期 2016.01.13
申请号 CN201210424633.6 申请日期 2012.10.30
申请人 北京腾逸科技发展有限公司 发明人 杨睿尘
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 张大威
主权项 一种并行化分布式网络舆情数据管理方法,其特征在于,包括:对互联网数据进行抓取,包括:用户设定网站的类型、所属行业、所要抓取索引页的链接;然后将所述索引页对应的网页信息抓取的正则配置网页导入数据库;以及读取所述索引页的完整抓取配置信息,对所述索引页下的所有全文和评论进行抓取,并对抓取的网页进行标定和记录,其中,所述数据库的读操作和写操作在不同数据库服务器中进行;对所述互联网数据进行抽取,包括:将所述索引页对应的网页信息抽取正则配置文件导入数据库,以及读取所述索引页下正文、评论的完整抽取配置信息,进行所述索引页下的所有正文及评论的抽取,并对抽取的网页进行标定和记录;存储和展示抓取和抽取得到的互联网舆情数据;以及对所述互联网舆情数据的索引和查询进行优化。
地址 100086 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦1087