主权项 |
一种基于数据挖掘的互联网产品调研系统,其特征在于包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块;其中:信息采集模块:根据调研需求从互联网收集与产品相关的信息,包括产品属性参数、产品相关新闻,以及产品的用户评论信息,这些信息将作为原始数据送至信息预处理模块;根据采集数据类型的不同,信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块;产品属性信息采集器采集产品属性参数;新闻采集器爬取产品相关新闻;用户评论采集器采集产品相关的用户评论,产品评论中包含用户对产品的情感信息;信息预处理模块:对信息采集模块收集的原始数据进行清理和预处理,分别针对三类不同的数据进行预处理:对于产品属性信息主要是半自动地识别产品特征模板,然后通过产品特征模板将产品属性参数采集后入库;对于产品相关新闻,主要采集新闻内容、来源数据,抽取新闻网页的正文后入库;对于用户评论信息,主要采集评论的产品对象、评论用户、评论内容、时间信息;对于产品相关新闻和评论内容,还需进行各种预处理,包括:中文分词,词性标注,依存句法分析;经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中;产品概貌分析模块:利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析,产生产品的概括性描述;其中主要分为产品属性参数分析模块和产品摘要模块两个子模块;产品属性参数分析模块根据采集到产品属性参数,列出产品的各特征参数,同时对产品中较为重要的属性词进行标识;产品摘要模块,根据采集到的产品相关新闻集合及属性参数计算属性词的词权;基于词权计算句子权重,并综合其他各种特征,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述;情感分析模块:基于已经采集和预处理的产品属性参数和产品的用户评论信息,自动收集和属性相关的情感词,计算情感词与属性之间的稳固程度,得到属性和情感词对模型,实现面向产品的情感分析自适应;采用情感分析技术识别出用户评论中的观点句,抽取出用户对产品以及产品各不同属性的评价和情感倾向,从而分析出用户对产品的整体口碑,以及各主要属性的口碑,从而得出对产品各不同侧面的分析结果;同时,通过比较用户对不同产品及其不同属性的口碑,不同产品进行对比分析,得出对比分析结果;用户行为分析模块:基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间等信息,同时基于情感分析模块产生的用户评论情感分析结果,形成四元组<U,P,A,S>, 其中U表示用户,P表示产品,A表示产品属性,S表示情感极值。基于四元组集合,对每个用户进行描述;然后对用户的行为进行聚类分析,得到相似用户簇,从而实现产品用户的细分;同时,对这些不同的相似用户簇进行摘要分析,得出各个不同用户群体主要关注的内容,及其对产品各不同属性的情感倾向;数据展示模块:对概貌分析模块、情感分析模块以及用户分析模块的内容进行可视化展示,使用户能够方便地查看产品分析的结果,及分析结果对应的支持数据。 |