发明名称 非结构化数据的处理方法和装置
摘要 本发明实施例提供一种非结构化数据的处理方法和装置。该非结构化数据的处理方法包括:根据预先配置的字典树,对待处理的数据进行分词处理,获取分词结果;所述字典树是根据所述预先配置的知识数据库建立的,所述知识数据库为二元组的集合,且所述二元组的集合包括文本信息和对应的编号;采用向量空间模型VSM,进行向量化处理,获取向量化结果;采用主成分分析法PCA或奇异值分解算法SVD,进行降维处理,获取降维结果;采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算,并根据所述聚类计算获取的欧氏距离或余弦相似度,对所述待处理数据进行聚类,获取聚类结果,有效的提高了非结构化数据的聚类处理的质量和效率。<pb pnum="1" />
申请公布号 CN105022740A 申请公布日期 2015.11.04
申请号 CN201410165877.6 申请日期 2014.04.23
申请人 苏州易维迅信息科技有限公司 发明人 赵关荣;刘政;张天扬;王雯;程志刚;马一人
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种非结构化数据的处理方法,其特征在于,包括:根据预先配置的字典树,对获取的待处理的数据进行分词处理,获取分词结果;所述字典树是根据所述预先配置的知识数据库建立的,其中,所述知识数据库为二元组的集合,且所述二元组的集合包括文本信息和对应的编号;采用向量空间模型VSM,对所述分词结果进行向量化处理,获取向量化结果;采用主成分分析法PCA或奇异值分解算法SVD,对所述向量化结果进行降维处理,获取降维结果;采用数据挖掘算法K‑means算法对所述降维结果进行连续两次聚类计算,并根据所述聚类计算获取的欧氏距离或余弦相似度,对所述待处理数据进行聚类,获取聚类结果。
地址 215163 江苏省苏州市高新区科技城青城山路350号