Web主题倾向性挖掘与决策支持的方法,申请号CN201310059170.2-传众专利搜索

发明名称	Web主题倾向性挖掘与决策支持的方法
摘要	本发明公开一种Web主题倾向性挖掘与决策支持的方法，包括步骤：S1.网络信息抽取与储存，通过网络挖掘技术，在互联网上获取信息，并将结果存入数据库和本地文件系统；S2.信息的观点主题检测与跟踪，利用专题评论数据，检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题；S3.观点主题情感倾向性识别，对企业的热点话题进行话题情感倾向性分类，挖掘出观点主题的情感倾向性。本发明通过从互联网中获取相关商业资讯，快速有效地从海量网络资讯中挖掘企业相关的主题倾向性走势，实现即时商业智慧，更好地为企业提供决策支持服务。
申请公布号	CN103116644B	申请公布日期	2016.04.13
申请号	CN201310059170.2	申请日期	2013.02.26
申请人	华南理工大学	发明人	张振刚;徐浩;杨沛;丁卓
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州粤高专利商标代理有限公司 44102	代理人	何淑珍
主权项	一种Web主题倾向性挖掘与决策支持的方法，其特征在于，包括步骤：S1.网络信息抽取与储存，通过网络挖掘技术，在互联网上获取信息，并将结果存入数据库和本地文件系统；S2.信息的观点主题检测与跟踪，利用专题评论数据，检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题；S3.观点主题情感倾向性识别，对企业的热点话题进行话题情感倾向性分类，挖掘出观点主题的情感倾向性；所述步骤S1还包括：S11. 自然语言处理对原始网络信息进行预处理，包括：中文分词、词性标注、停用词处理，命名实体识别；所述步骤S2中观点主题检测与跟踪的过程具体包括：S21.从网络上采集到的信息，经过基于模板的信息分类，过滤噪声信息；S22.将过滤后的相关信息，采用基于时间函数的增量聚类方法，实现子话题的检测，并将结果存储到数据库子话题表中；S23.根据子话题的检测结果，提取出子话题的摘要和关键词，并修改子话题表相关信息；S24.根据子话题的信息，再次根据窗口间相似度比较的增量聚类方法，进行话题检测，并提取关键词，得到话题信息存入数据库；S25.根据话题中信息的时间和话题中信息的数量，发现热点话题，并呈现给用户；所述步骤S22中子话题的检测的过程具体包括：S221.顺序处理相关信息中的每篇文档；S222.利用层次聚类方法对未处理过的文档进行聚类；S223.若不存在历史聚类，则根据当前聚类结果，存储子话题；S224.若存在历史聚类，则对历史子话题和新聚类出的子话题，再次进行层次聚类；S225.将新产生的子话题存入数据库；S226.更新子话题与文档的关系；S227.计算新产生和更新过的子话题的关键词、多文档摘要信息存入数据库；所述步骤S24中话题的检测的过程具体包括：S241.顺序处理每个子话题；S242.第一个子话题的向量自动成为第一个聚类的聚类中心；S243.如果相似度大于某个阈值，则该子话题被分配给这个聚类；S244.当一篇子话题分配给某个聚类的时候，重新计算这个聚类的聚类中心；S245.若某子话题没有分配给任何的聚类，则该子话题成为一个新的聚类，同时也是这个聚类的聚类中心；S246.将新产生的话题，添加到数据库；S247.更新话题的信息；所述步骤S3中网络主题情感倾向性识别的过程具体包括：S31.训练话题情感分类模型，读取标注好的话题语料和情感词典，利用SVM分类算法，通过训练得到话题情感分类模型；S32.子话题情感分类，对子话题抽取情感特征，利用话题情感分类模型及SVM分类算法获取子话题情感分类结果；S33.话题情感分类，利用子话题情感分类的结果，构建基于子话题的图模型，根据图模型输出话题情感分类结果。
地址	510640 广东省广州市天河区五山路381号