发明名称 |
互联网数据提取系统 |
摘要 |
本发明提供了一种互联网数据提取系统,该系统包括:数据采集模块,用于对用户在互联网中发布的内容进行采集;数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;话题归类模块,用于在预处理后的数据中基于话题之间的相似度进行归类;话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。本发明提出了一种互联网数据提取系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。 |
申请公布号 |
CN104809252A |
申请公布日期 |
2015.07.29 |
申请号 |
CN201510257882.4 |
申请日期 |
2015.05.20 |
申请人 |
成都布林特信息技术有限公司 |
发明人 |
张鹏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天奇智新知识产权代理有限公司 11340 |
代理人 |
郭霞 |
主权项 |
一种互联网数据提取系统,其特征在于,包括:数据采集模块,用于对用户在互联网中发布的内容进行采集;数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;话题归类模块,用于在预处理后的数据中基于话题之间的相似度进行归类;话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。 |
地址 |
610041 四川省成都市高新区神仙树南路1号附3号 |