发明名称 |
非结构化数据的处理方法和装置 |
摘要 |
本发明实施例提供一种非结构化数据的处理方法和装置。该非结构化数据的处理方法包括:根据预先配置的字典树,对待处理的数据进行分词处理,获取分词结果;所述字典树是根据所述预先配置的知识数据库建立的,所述知识数据库为二元组的集合,且所述二元组的集合包括文本信息和对应的编号;采用向量空间模型VSM,进行向量化处理,获取向量化结果;采用主成分分析法PCA或奇异值分解算法SVD,进行降维处理,获取降维结果;采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算,并根据所述聚类计算获取的欧氏距离或余弦相似度,对所述待处理数据进行聚类,获取聚类结果,有效的提高了非结构化数据的聚类处理的质量和效率。<pb pnum="1" /> |
申请公布号 |
CN105022740A |
申请公布日期 |
2015.11.04 |
申请号 |
CN201410165877.6 |
申请日期 |
2014.04.23 |
申请人 |
苏州易维迅信息科技有限公司 |
发明人 |
赵关荣;刘政;张天扬;王雯;程志刚;马一人 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
刘芳 |
主权项 |
一种非结构化数据的处理方法,其特征在于,包括:根据预先配置的字典树,对获取的待处理的数据进行分词处理,获取分词结果;所述字典树是根据所述预先配置的知识数据库建立的,其中,所述知识数据库为二元组的集合,且所述二元组的集合包括文本信息和对应的编号;采用向量空间模型VSM,对所述分词结果进行向量化处理,获取向量化结果;采用主成分分析法PCA或奇异值分解算法SVD,对所述向量化结果进行降维处理,获取降维结果;采用数据挖掘算法K‑means算法对所述降维结果进行连续两次聚类计算,并根据所述聚类计算获取的欧氏距离或余弦相似度,对所述待处理数据进行聚类,获取聚类结果。 |
地址 |
215163 江苏省苏州市高新区科技城青城山路350号 |