发明名称 基于两层聚类的多文档主题发现方法
摘要 本发明公开了一种基于两层聚类的多文档主题发现方法,包括下述步骤:S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。本发明提炼出词语间的内在语义联系,解决建立句子特征向量时各个特征项之间“非正交”的情况。
申请公布号 CN104778204A 申请公布日期 2015.07.15
申请号 CN201510093441.5 申请日期 2015.03.02
申请人 华南理工大学;广州三星通信技术研究有限公司;三星电子株式会社 发明人 陈健;袁慎溪
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 李斌
主权项 一种基于两层聚类的多文档主题发现方法,其特征在于,包括下述步骤:S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。
地址 510006 广东省广州市番禺区广州大学城华南理工大学