发明名称 一种面向跨领域知识发现的主题挖掘方法
摘要 本发明公开了一种面向跨领域知识发现的主题挖掘方法,包括:构建源领域文本集合和目标领域集合;从源领域文本集合抽取潜在类别特征信息和潜在的语义信息;从目标领域集合抽取文本的潜在特征信息和潜在语义信息;将目标领域集合中的文本自动聚合在风格潜在组件中;将目标领域集合的语义信息建模在主题潜在组件中;建模目标领域集合的语义信息的主题潜在组件。本发明具有如下优点:自动挖掘源领域文本特征用于目标领域中文本的识别和分类;准确将源领域的文本特征信息迁移到目标领域的文本聚类之中;自动找出目标领域中与源领域不同文本内容。
申请公布号 CN105138538A 申请公布日期 2015.12.09
申请号 CN201510398749.0 申请日期 2015.07.08
申请人 清华大学 发明人 靳晓明;韩春晖
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 张大威
主权项 一种面向跨领域知识发现的主题挖掘方法,其特征在于,包括以下步骤:A:对于给定的有类标的文本数据集,构建源领域文本集合;对于给定的没有类标的文本数据集,构建目标领域集合;B:从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息,将所述潜在类别特征信息建模在风格潜在组件中;从所述源领域文本集合抽取文本中潜在语义信息,建模在主题潜在组件中;C:从所述目标领域集合抽取文本的潜在特征信息和潜在语义信息;D:根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息,将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中;根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息,将所述目标领域集合的语义信息建模在所述主题潜在组件中;以及E:建模所述目标领域集合的语义信息的主题潜在组件。
地址 100084 北京市海淀区82信箱