发明名称 Web主题倾向性挖掘与决策支持的方法
摘要 本发明公开一种Web主题倾向性挖掘与决策支持的方法,包括步骤:S1.网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;S2.信息的观点主题检测与跟踪,利用专题评论数据,检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题;S3.观点主题情感倾向性识别,对企业的热点话题进行话题情感倾向性分类,挖掘出观点主题的情感倾向性。本发明通过从互联网中获取相关商业资讯,快速有效地从海量网络资讯中挖掘企业相关的主题倾向性走势,实现即时商业智慧,更好地为企业提供决策支持服务。
申请公布号 CN103116644B 申请公布日期 2016.04.13
申请号 CN201310059170.2 申请日期 2013.02.26
申请人 华南理工大学 发明人 张振刚;徐浩;杨沛;丁卓
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 何淑珍
主权项 一种Web主题倾向性挖掘与决策支持的方法,其特征在于,包括步骤:S1.网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;S2.信息的观点主题检测与跟踪,利用专题评论数据,检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题;S3.观点主题情感倾向性识别,对企业的热点话题进行话题情感倾向性分类,挖掘出观点主题的情感倾向性;所述步骤S1还包括:S11. 自然语言处理对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别;所述步骤S2中观点主题检测与跟踪的过程具体包括:S21.从网络上采集到的信息,经过基于模板的信息分类,过滤噪声信息;S22.将过滤后的相关信息,采用基于时间函数的增量聚类方法,实现子话题的检测,并将结果存储到数据库子话题表中;S23.根据子话题的检测结果,提取出子话题的摘要和关键词,并修改子话题表相关信息;S24.根据子话题的信息,再次根据窗口间相似度比较的增量聚类方法,进行话题检测,并提取关键词,得到话题信息存入数据库;S25.根据话题中信息的时间和话题中信息的数量,发现热点话题,并呈现给用户;所述步骤S22中子话题的检测的过程具体包括:S221.顺序处理相关信息中的每篇文档;S222.利用层次聚类方法对未处理过的文档进行聚类;S223.若不存在历史聚类,则根据当前聚类结果,存储子话题;S224.若存在历史聚类,则对历史子话题和新聚类出的子话题,再次进行层次聚类;S225.将新产生的子话题存入数据库;S226.更新子话题与文档的关系;S227.计算新产生和更新过的子话题的关键词、多文档摘要信息存入数据库;所述步骤S24中话题的检测的过程具体包括:S241.顺序处理每个子话题;S242.第一个子话题的向量自动成为第一个聚类的聚类中心;S243.如果相似度大于某个阈值,则该子话题被分配给这个聚类;S244.当一篇子话题分配给某个聚类的时候,重新计算这个聚类的聚类中心;S245.若某子话题没有分配给任何的聚类,则该子话题成为一个新的聚类,同时也是这个聚类的聚类中心;S246.将新产生的话题,添加到数据库;S247.更新话题的信息;所述步骤S3中网络主题情感倾向性识别的过程具体包括:S31.训练话题情感分类模型,读取标注好的话题语料和情感词典,利用SVM分类算法,通过训练得到话题情感分类模型;S32.子话题情感分类,对子话题抽取情感特征,利用话题情感分类模型及SVM分类算法获取子话题情感分类结果;S33.话题情感分类,利用子话题情感分类的结果,构建基于子话题的图模型,根据图模型输出话题情感分类结果。
地址 510640 广东省广州市天河区五山路381号