发明名称 | 一种基于Hadoop的文档分类方法 | ||
摘要 | 本发明公开了一种基于Hadoop的文档分类方法,包括如下步骤:对训练用文档集进行预处理,将原始的文档转化成向量形式;将向量形式的数据上传至集群文件系统;所述集群文件系统对向量形式的数据进行分块处理;对分块处理后的数据进行map-reduce处理过程得到统计信息;根据统计信息训练分类器;利用得到的分类器对测试用的文档进行分类。本发明能够利用大量无标记的文本提高分类器的分类准确度;能够利用集群和并行计算模型提高训练分类器的速度。 | ||
申请公布号 | CN102637205A | 申请公布日期 | 2012.08.15 |
申请号 | CN201210072522.3 | 申请日期 | 2012.03.19 |
申请人 | 南京大学;南京大学江阴信息技术研究院 | 发明人 | 高阳;江凯;杨育彬;商琳 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人 | 夏雪 |
主权项 | 一种基于Hadoop的文档分类方法,其特征在于,包括如下步骤:(1)对训练用文档集进行预处理,将原始的文档转化成向量形式;(2)将向量形式的数据上传至集群文件系统;(3)所述集群文件系统对向量形式的数据进行分块处理;(4)对分块处理后的数据进行map‑reduce处理过程得到统计信息;(5)根据统计信息训练分类器;(6)利用得到的分类器对测试用的文档进行分类。 | ||
地址 | 210046 江苏省南京市仙林大道163号 |