发明名称 基于网络文本的地震宏观异常信息获取与筛选方法
摘要 本发明属于文本数据挖掘领域,提供一种基于网络文本的地震宏观异常信息获取与筛选方法,用于从互联网收集并筛选地震宏观异常文本信息。所述方法基于Heritrix框架,应用地震宏观异常主题描述词组,分别针对一般网页、贴吧和社交网络三种信息来源定制了从地震宏观异常主题相关性判别、链接排序到信息抽取的爬取策略,并进一步针对爬取到的主题相关网页,从主观句判别、文本主观性判别以及地震宏观异常匹配三个方面进行信息筛选。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段,极大提高了信息获取的效率。
申请公布号 CN104679825A 申请公布日期 2015.06.03
申请号 CN201510004864.5 申请日期 2015.01.06
申请人 中国农业大学 发明人 李林;方帅;曹津;张晓东;赵明明;王竹;叶思菁;姚晓闯;海
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 李相雨
主权项 一种基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,包括以下步骤:选择符合数据采集要求的信息源,通过判断页面相关性及URL链接相关性,进行基于网页文本的地震宏观异常信息获取;通过对获取的信息进行主观情感信息的过滤与地震宏观异常信息匹配,实现地震宏观异常文本信息的筛选。
地址 100193 北京市海淀区圆明园西路2号