发明名称 一种中文文本数据聚类方法及系统
摘要 本发明公开了一种中文文本数据聚类方法及系统,属于数据挖掘技术领域其中,包括:步骤1将每条所述文本数据进行降维处理;步骤2将所述文本数据根据需要分成多批次;步骤3对单批次中的文本数据根据文本相似性进行聚类操作;步骤4完成所有批次批次之间的聚类操作,形成统一聚类。所述步骤1中的降维操作包括:步骤a.选取特征字集合;步骤b.将每条所述文本数据比照所述特征字集合,统计在所述文本数据中出现的特征字,形成文本数据的特征集合。本发明的有益效果是:通过对文本数据的降维操作和批次处理,有效地提高了系统运行速度和效率,减少了空间开销。解决了大规模中文文本的聚类的处理效率问题以及空间占用量大的性能问题。
申请公布号 CN103218435A 申请公布日期 2013.07.24
申请号 CN201310130406.7 申请日期 2013.04.15
申请人 上海嘉之道企业管理咨询有限公司 发明人 赵旭
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海申新律师事务所 31272 代理人 竺路玲
主权项 一种中文文本数据聚类方法,所述文本数据具有多个维度,其特征在于,包括: 步骤1将每条所述文本数据进行降维处理; 步骤2将所述文本数据根据需要分成多批次; 步骤3对单批次中的文本数据根据文本相似性进行聚类操作; 步骤4完成所有批次各个批次之间的聚类操作,形成统一聚类。
地址 201101 上海市松江区沪松路315号