基于两层聚类的多文档主题发现方法,申请号CN201510093441.5-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于两层聚类的多文档主题发现方法
摘要	本发明公开了一种基于两层聚类的多文档主题发现方法，包括下述步骤：S1、将多个文档作为输入，对每个文档进行预处理，包括对文档进行分句，对句子进行分词，获取多文档集合中的名词集合、动词集合，并对其中的多义词进行词义消歧处理；S2、对步骤S1输出的名词集合、动词集合，根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析，抽取出语义概念，并依此对句子建立向量空间模型；S3、使用改进的k中心点算法对句子进行聚类分析，得到主题。本发明提炼出词语间的内在语义联系，解决建立句子特征向量时各个特征项之间“非正交”的情况。
申请公布号	CN104778204A	申请公布日期	2015.07.15
申请号	CN201510093441.5	申请日期	2015.03.02
申请人	华南理工大学;广州三星通信技术研究有限公司;三星电子株式会社	发明人	陈健;袁慎溪
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州市华学知识产权代理有限公司 44245	代理人	李斌
主权项	一种基于两层聚类的多文档主题发现方法，其特征在于，包括下述步骤：S1、将多个文档作为输入，对每个文档进行预处理，包括对文档进行分句，对句子进行分词，获取多文档集合中的名词集合、动词集合，并对其中的多义词进行词义消歧处理；S2、对步骤S1输出的名词集合、动词集合，根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析，抽取出语义概念，并依此对句子建立向量空间模型；S3、使用改进的k中心点算法对句子进行聚类分析，得到主题。
地址	510006 广东省广州市番禺区广州大学城华南理工大学

您可能感兴趣的专利

Image forming apparatus, image forming apparatus control method, cartridge, and storage medium

Curable encapsulant compositions

EGR control apparatus for diesel engine

Lithographic apparatus, device manufacturing method, and device manufactured thereby

High activity catalysts for the polymerisation of ethylene prepared with phosphates/phosphites reagents

Method for making a blade and blade manufactured thereby

Method for controlling the synchronism of audio and video data in a mobile phone

X-ray CT system

Method of making a MIS power semiconductor device

Current sensing circuit

Method of forming interlayer connections in integrated optical circuits, and devices formed using same

NON-VOLATILE MEMORY WITH TEMPERATURE-COMPENSATED DATA READ

Headlamp for vehicles

Sleeved rollers for use in a fusing station employing an externally heated fuser roller

Low contact force spring

Signal line drive circuit, image display device, and portable apparatus

Metal graphite material and production method thereof

Optical fiber coupling system and manufacturing method thereof

Information recording and reproducing apparatus