发明名称 |
基于两层聚类的多文档主题发现方法 |
摘要 |
本发明公开了一种基于两层聚类的多文档主题发现方法,包括下述步骤:S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。本发明提炼出词语间的内在语义联系,解决建立句子特征向量时各个特征项之间“非正交”的情况。 |
申请公布号 |
CN104778204A |
申请公布日期 |
2015.07.15 |
申请号 |
CN201510093441.5 |
申请日期 |
2015.03.02 |
申请人 |
华南理工大学;广州三星通信技术研究有限公司;三星电子株式会社 |
发明人 |
陈健;袁慎溪 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州市华学知识产权代理有限公司 44245 |
代理人 |
李斌 |
主权项 |
一种基于两层聚类的多文档主题发现方法,其特征在于,包括下述步骤:S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。 |
地址 |
510006 广东省广州市番禺区广州大学城华南理工大学 |