非结构化数据的处理方法和装置,申请号CN201410165877.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	非结构化数据的处理方法和装置
摘要	本发明实施例提供一种非结构化数据的处理方法和装置。该非结构化数据的处理方法包括：根据预先配置的字典树，对待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号；采用向量空间模型VSM，进行向量化处理，获取向量化结果；采用主成分分析法PCA或奇异值分解算法SVD，进行降维处理，获取降维结果；采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果，有效的提高了非结构化数据的聚类处理的质量和效率。<pb pnum="1" />
申请公布号	CN105022740A	申请公布日期	2015.11.04
申请号	CN201410165877.6	申请日期	2014.04.23
申请人	苏州易维迅信息科技有限公司	发明人	赵关荣;刘政;张天扬;王雯;程志刚;马一人
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京同立钧成知识产权代理有限公司 11205	代理人	刘芳
主权项	一种非结构化数据的处理方法，其特征在于，包括：根据预先配置的字典树，对获取的待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，其中，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号；采用向量空间模型VSM，对所述分词结果进行向量化处理，获取向量化结果；采用主成分分析法PCA或奇异值分解算法SVD，对所述向量化结果进行降维处理，获取降维结果；采用数据挖掘算法K‑means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果。
地址	215163 江苏省苏州市高新区科技城青城山路350号

您可能感兴趣的专利

WAFER CLEANING APPARATUS

PIEZO-ELECTRIC ACTUATOR-TRANSDUCER FOR SOUND REPRODUCTION SYSTEMS

DEVICE FOR FILLING A TUBE REACTOR

SHIELDED PRINTED BOARD SOCKET-CONTACT WITH SHIELD CONTACTING WITH THE WALL OF AN APPLIANCE

SENSITIVE EPSTEIN-BARR VIRUS DNA DETECTION

SEMICONDUCTOR MODULE

METHOD FOR EFFICIENT SAMPLING IN A CORRELATOR

HEAT-WELDING OF PLASTICS BY RADIATION

PROCESS FOR CONNECTING FLAT ELEMENTS MADE OF GLASS OR PLASTIC

METHOD FOR FABRICATION OF A NON-SYMMETRICAL TRANSISTOR

METHOD FOR INJECTION OF EXTERNALLY PRODUCED IONS INTO A QUADRUPOLE ION TRAP

COMPUTERIZED MEDICAL DIAGNOSTIC AND TREATMENT ADVICE SYSTEM INCLUDING NETWORK ACCESS

A DEVICE HAVING A PLURALITY OF CHANNELS FILLED WITH AN IONIZABLE GAS

METHODS TO DETECT HK2 POLYPEPTIDES

METHOD FOR INHIBITING CORROSION AND PROCESS FOR PREPARING 1-AMIDOALKYLIMIDAZOLES

NEW DIBLOCK COPOLYMERS CONSISTING OF POLYOLEFIN AND FUNCTIONAL POLYMER SEGMENTS

CHECKOUT COUNTER DIVIDER BAR TRACKS

WHEEL DRIVE SYSTEM