发明名称 互联网数据提取系统
摘要 本发明提供了一种互联网数据提取系统,该系统包括:数据采集模块,用于对用户在互联网中发布的内容进行采集;数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;话题归类模块,用于在预处理后的数据中基于话题之间的相似度进行归类;话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。本发明提出了一种互联网数据提取系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
申请公布号 CN104809252A 申请公布日期 2015.07.29
申请号 CN201510257882.4 申请日期 2015.05.20
申请人 成都布林特信息技术有限公司 发明人 张鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天奇智新知识产权代理有限公司 11340 代理人 郭霞
主权项 一种互联网数据提取系统,其特征在于,包括:数据采集模块,用于对用户在互联网中发布的内容进行采集;数据预处理模块,用于对采集的网络文本进行预处理,包括根据用户等级进行噪声过滤、文本分词、停用词过滤、权值计算、矢量表示和特征提取;话题归类模块,用于在预处理后的数据中基于话题之间的相似度进行归类;话题频度计算模块,用于对归类之后的话题群,结合网络属性信息和用户等级,计算话题频度值。
地址 610041 四川省成都市高新区神仙树南路1号附3号