发明名称 |
基于网络话题的活跃度与集群结构分析系统及方法 |
摘要 |
一种基于网络话题的活跃度与集群结构分析系统,包括:数据获取归一模块、数据存储模块、应用分析模块、用户交互与展示模块,用户交互与展示模块提供与用户交互以及数据分析结果展示的接口。数据获取归一模块通过接收用户指定的URL,借助网络数据爬取子单元和网页数据归一子单元获取并归一化网络数据。数据存储模块存放归一化网页数据,为应用解析模块提供分析数据。应用解析模块在网页聚类和热点挖掘的基础上,深度挖掘话题活跃度和社团结构,并通过用户交互与展示单元向用户展示结果。本发明克服了网络舆情系统领域检测手段单一,不能进行网页内容挖掘等局限性,很好的解决了网页信息分析中集群结构挖掘与状态评估的深层次信息挖掘的问题。 |
申请公布号 |
CN103023714B |
申请公布日期 |
2015.12.23 |
申请号 |
CN201210477317.5 |
申请日期 |
2012.11.21 |
申请人 |
上海交通大学 |
发明人 |
陈秀真;李生红;李建华;李琳;楼昊;蔡贵贤;陶彤彤 |
分类号 |
H04L12/26(2006.01)I;H04L29/08(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
H04L12/26(2006.01)I |
代理机构 |
上海汉声知识产权代理有限公司 31236 |
代理人 |
胡晶 |
主权项 |
一种基于网络话题的活跃度与集群结构分析系统,其特征在于,包括数据获取归一模块、数据存储模块、应用分析模块、用户交互与展示模块,其中:用户交互与展示模块:用于提供与用户交互以及数据分析结果展示的接口;数据获取归一模块:用于通过接收用户指定的统一资源定位符,借助网页数据爬取子单元和网页数据归一子单元获取并归一化网页数据;其包括网页数据爬取子单元和网页数据归一子单元,网页数据爬取子单元用于获取指定网站的原始网页数据,并将原始网页和该原始网页的本地存放地址保存起来,网页数据归一子单元利用网页解析数据库提供的解析方法分析所述原始网页数据,得到归一化网页数据,并将其保存起来;数据存储模块:用于存放网络页面的原始网页数据和归一化网页数据,为应用分析模块提供分析数据;应用分析模块:在网页聚类和热点挖掘的基础上,利用热点挖掘的结果对归一化网页数据进一步挖掘话题活跃度和社团结构,并通过所述用户交互与展示模块向用户展示结果。 |
地址 |
200240 上海市闵行区东川路800号 |