一种基于互补语料的短文本观点挖掘方法,申请号CN201610559782.1-传众专利搜索

发明名称	一种基于互补语料的短文本观点挖掘方法
摘要	本发明公开了一种基于互补语料的短文本观点挖掘方法，是基于属性的观点挖掘；具体为：首先，从某段微博语料中选取训练语料，进行分词处理，词性标注和筛选；根据观点词将训练语料进行属性词的标注；并使用词性标注做为特征训练最大熵模型；然后，针对某个事件的微博语料和新闻语料，构建跨语料的话题模型，并结合最大熵模型，分析该事件所属的话题并提取相应的属性词分布和观点词分布；最后，针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词，利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘，具有高效性、鲁棒性和易用性的特点，在观点挖掘、舆情监控等领域具有重要的应用价值。
申请公布号	CN106227768A	申请公布日期	2016.12.14
申请号	CN201610559782.1	申请日期	2016.07.15
申请人	国家计算机网络与信息安全管理中心	发明人	何跃鹰;吴俊杰;赵忠华;董建武;徐剑;林浩;左源
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	赵文利
主权项	一种基于互补语料的短文本观点挖掘方法，其特征在于，具体步骤如下：步骤一、针对某段微博，从微博语料中根据观点词词典选取训练语料，并进行分词处理，词性标注和筛选；微博语料包括至少一条微博文本；步骤二、根据观点词词典中的观点词，将训练语料进行属性词的标注；属性词是指，在训练语料中选择的每条文本中，至少包括一个观点词，出现观点词附近的又不在观点词集合中的词；步骤三、对标注完属性词的训练语料，结合观点词，使用词性标注做为特征，训练最大熵模型；步骤四、针对某个事件，同时分析该事件的微博语料和新闻语料，构建跨语料的话题模型，并结合最大熵模型，分析该事件所属的话题并提取相应的属性词分布和观点词分布；跨语料话题模型用来计算事件中的某个分词归属为共享话题的具体话题概率，或者独享话题中的具体话题概率；具体为：步骤401、针对某个事件，同时选取该事件的微博语料和新闻语料，组成集合语料；步骤402、对集合语料中的每条文档，分别进行分词处理和词性标注并筛选；步骤403、将每条文档中的分词组成输入列表，作为跨语料话题模型的输入；步骤404、针对该事件的集合语料，初始化共享话题个数和共享话题的相关词分布，以及独享话题个数和独享话题的相关词分布，以及所有不同的分词集合<img file="FDA0001050214050000011.GIF" wi="154" he="67" />分词总数V；共享话题是指，与事件相关的微博语料和新闻语料享有的共同属性；独享话题是指，与事件相关的微博语料或新闻语料报道的多个不同事件属性；根据集合语料的所有分词，去除重复分词，计算得出所有不同的分词集合为<img file="FDA0001050214050000012.GIF" wi="153" he="71" />总数为V；将第z个共享话题的相关词分布<img file="FDA0001050214050000013.GIF" wi="282" he="71" />以及第z个独享话题的相关词分布<img file="FDA0001050214050000014.GIF" wi="179" he="62" />进行初始化，各种词分布均可初始化为一个V维度、值为1的向量，表示初始时所有分布在所有分词维度上的频数一样；其中，<img file="FDA0001050214050000015.GIF" wi="53" he="63" />表示微博语料或新闻语料上第z个共享话题的属性词分布；<img file="FDA0001050214050000016.GIF" wi="60" he="69" />表示微博语料上第z个共享话题的观点词分布，<img file="FDA0001050214050000017.GIF" wi="66" he="70" />表示新闻语料上第z个共享话题的观点词分布；<img file="FDA0001050214050000018.GIF" wi="62" he="62" />表示微博语料或新闻语料上的第z个独享话题的属性词分布；<img file="FDA0001050214050000019.GIF" wi="69" he="63" />表示微博或新闻语料上的第z个独享话题的观点词分布；步骤405、根据分词输入列表、初始化的分词分布和所有不同分词的集合，利用跨语料话题模型选出最终的分词；步骤406、将最终分词输入到期望最大化算法EM，迭代计算跨语料话题模型中的参数，输出该事件实际共享话题的相关词分布，或者独享话题的相关词分布；参数包括<img file="FDA0001050214050000021.GIF" wi="578" he="71" />z<sub>d,s</sub>；步骤五、针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词，利用情感分类器进行极性分析。
地址	100029 北京市朝阳区裕民路甲3号