发明名称 基于word2vec算法的新评论对象识别方法及系统
摘要 本发明提供了一种基于word2vec算法的新评论对象识别方法及系统,该新评论对象识别方法包括数据获取步骤、评论数据处理步骤、计算词向量步骤、观点提取步骤、新评论对象获取步骤、过滤步骤、更新步骤,重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤,直到不出现新评论对象或达到迭代次数后,执行观点提取步骤,从而得到最新的观点提取结果。本发明的有益效果是:本发明通过word2vec计算词向量来自动过滤新评论对象识别结果,相对于传统的CRF模型而言,提升了新评论对象发现的准确性,相比于人工维护词典的方法,本发明实施相对简单,具有更高的效率。
申请公布号 CN105447206B 申请公布日期 2017.04.05
申请号 CN201610009698.2 申请日期 2016.01.05
申请人 深圳市中易科技有限责任公司 发明人 吴扬;王平;石增华
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市科吉华烽知识产权事务所(普通合伙) 44248 代理人 于标
主权项 一种基于word2vec算法的新评论对象识别方法,其特征在于,包括如下步骤:数据获取步骤,获取网页上的评论数据;评论数据处理步骤,对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;计算词向量步骤,使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;观点提取步骤,使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;新评论对象获取步骤,结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中,所述CRF模型是条件随机场模型;过滤步骤,使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;更新步骤,将新词词集中的评论对象添加到种子词典中,从而更新种子词典;重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤,直到不出现新评论对象或达到迭代次数后,执行观点提取步骤,从而得到最新的观点提取结果。
地址 518057 广东省深圳市南山区高新区南区科技南十路6号深圳航天科技创新研究院大厦A座4楼405-406室