一种中文文本数据聚类方法及系统,申请号CN201310130406.7-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种中文文本数据聚类方法及系统
摘要	本发明公开了一种中文文本数据聚类方法及系统，属于数据挖掘技术领域其中，包括：步骤1将每条所述文本数据进行降维处理；步骤2将所述文本数据根据需要分成多批次；步骤3对单批次中的文本数据根据文本相似性进行聚类操作；步骤4完成所有批次批次之间的聚类操作，形成统一聚类。所述步骤1中的降维操作包括：步骤a.选取特征字集合；步骤b.将每条所述文本数据比照所述特征字集合，统计在所述文本数据中出现的特征字，形成文本数据的特征集合。本发明的有益效果是：通过对文本数据的降维操作和批次处理，有效地提高了系统运行速度和效率，减少了空间开销。解决了大规模中文文本的聚类的处理效率问题以及空间占用量大的性能问题。
申请公布号	CN103218435A	申请公布日期	2013.07.24
申请号	CN201310130406.7	申请日期	2013.04.15
申请人	上海嘉之道企业管理咨询有限公司	发明人	赵旭
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海申新律师事务所 31272	代理人	竺路玲
主权项	一种中文文本数据聚类方法，所述文本数据具有多个维度，其特征在于，包括：步骤1将每条所述文本数据进行降维处理；步骤2将所述文本数据根据需要分成多批次；步骤3对单批次中的文本数据根据文本相似性进行聚类操作；步骤4完成所有批次各个批次之间的聚类操作，形成统一聚类。
地址	201101 上海市松江区沪松路315号

您可能感兴趣的专利

一种防治农作物土传病害的杀菌组合物

一种应用于拼接显示设备的图像处理方法及装置

SIGNAL GENERATOR WITH IMAGE REJECTION

SIGNAL GENERATING METHOD AND SIGNAL GENERATING DEVICE

TRANSMITTER AND METHOD FOR GENERATING ADDITIONAL PARITY THEREOF

TRANSMITTING METHOD AND TRANSMITTING APPARATUS

MULTIPLYING ANALOG TO DIGITAL CONVERTER AND METHOD

RESISTOR MULTIPLEXED SWITCH WAKE-UP CIRCUIT

CIRCUIT AND METHOD TO EXTEND A SIGNAL COMPARISON VOLTAGE RANGE

APPARATUS AND METHODS FOR RADIO FREQUENCY SWITCHING

LOAD TORQUE ESTIMATION APPARATUS, IMAGE FORMING APPARATUS, LOAD TORQUE ESTIMATION METHOD AND RECORDING MEDIUM

METHOD, APPARATUS AND SYSTEM FOR OPERATING A ROTATING ELECTRIC MACHINE

VOLTAGE SUPPLY UNIT AND METHOD FOR OPERATING THE SAME

ELECTRICAL ASSEMBLY COMPRISING A CHAIN-LINK CONVERTER

ELECTRONIC CONTROL APPARATUS, MOTOR CONTROL APPARATUS AND ELECTRIC FLUID PUMP

MOTOR AND BLOWER

COMMUNICATION MODULE

WIRELESS POWER TRANSMISSION APPARATUS, WIRELESS POWER TRANSMISSION SYSTEM INCLUDING THE SAME AND WIRELESS POWER TRANSMISSION METHOD THEREOF

Heterogeneous Battery Cell Charging

DRIVER CONTROLLER WITH AC-ADAPTED AND DC-ADAPTED CONTROL MODES