发明名称 基于领域信息的半监督方面自动提取方法及其系统
摘要 本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。
申请公布号 CN103903164A 申请公布日期 2014.07.02
申请号 CN201410114328.6 申请日期 2014.03.25
申请人 华南理工大学 发明人 蔡毅;王涛;梁浩锋;闵华清
分类号 G06Q30/02(2012.01)I;G06F17/30(2006.01)I 主分类号 G06Q30/02(2012.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 蔡茂略
主权项 1.基于领域信息的半监督方面自动提取方法,其特征在于,包括:网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及电子商务网站中对于商品半结构化的商品细节描述信息;信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并提取评论中的特征单词;关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后将含有相同关键词的句子重新组合成新的文档,得到学习文档;细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成分类,并获得顺序与种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中,关键词具有特定的方面倾向;其中,所述方面类别c<sub>i</sub>中的第j个细节描述短语p<sub>i,j</sub>中的关键词w<sub>t</sub>的定义为以下三种定义中的任意一种定义:第一种定义:<maths num="0001"><![CDATA[<math><mrow><msub><mrow><mo>&ForAll;</mo><mi>w</mi></mrow><mi>m</mi></msub><mo>&Element;</mo><msub><mi>p</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>,</mo><mi>m</mi><mo>&NotEqual;</mo><mi>t</mi><mo>,</mo><msub><mi>TFIDF</mi><mrow><mi>m</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>&lt;</mo><msub><mi>TFIDF</mi><mrow><mi>t</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>;</mo></mrow></math>]]></maths>第二种定义:<maths num="0002"><![CDATA[<math><mrow><msub><mrow><mo>&ForAll;</mo><mi>w</mi></mrow><mi>m</mi></msub><mo>&Element;</mo><msub><mi>p</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>,</mo><mi>m</mi><mo>&NotEqual;</mo><mi>t</mi><mo>,</mo><mrow><mo>(</mo><msub><mi>TFIDF</mi><mrow><mi>m</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>=</mo><msub><mi>TFIDF</mi><mrow><mi>t</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>)</mo></mrow><mo>&cap;</mo><mrow><mo>(</mo><msub><mi>TF</mi><mrow><mi>m</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>&lt;</mo><msub><mi>TF</mi><mrow><mi>t</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>第三种定义:<maths num="0003"><![CDATA[<math><mrow><msub><mrow><mo>&Exists;</mo><mi>w</mi></mrow><mi>m</mi></msub><mo>&Element;</mo><msub><mi>p</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>,</mo><msub><mi>TFIDF</mi><mrow><mi>t</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>;</mo></mrow></math>]]></maths>式中,TFIDF<sub>m,i</sub>表示单词w<sub>t</sub>在c<sub>i</sub>中的TFIDF值,TF<sub>t,i</sub>表示单词w<sub>t</sub>在c<sub>i</sub>中的词频,DF表示单词w<sub>t</sub>在所有方面类别中的总词频。
地址 510640 广东省广州市天河区五山路381号