一种基于Hadoop的文档分类方法,申请号CN201210072522.3-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于Hadoop的文档分类方法
摘要	本发明公开了一种基于Hadoop的文档分类方法，包括如下步骤：对训练用文档集进行预处理，将原始的文档转化成向量形式；将向量形式的数据上传至集群文件系统；所述集群文件系统对向量形式的数据进行分块处理；对分块处理后的数据进行map-reduce处理过程得到统计信息；根据统计信息训练分类器；利用得到的分类器对测试用的文档进行分类。本发明能够利用大量无标记的文本提高分类器的分类准确度；能够利用集群和并行计算模型提高训练分类器的速度。
申请公布号	CN102637205A	申请公布日期	2012.08.15
申请号	CN201210072522.3	申请日期	2012.03.19
申请人	南京大学;南京大学江阴信息技术研究院	发明人	高阳;江凯;杨育彬;商琳
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京苏高专利商标事务所(普通合伙) 32204	代理人	夏雪
主权项	一种基于Hadoop的文档分类方法，其特征在于，包括如下步骤：(1)对训练用文档集进行预处理，将原始的文档转化成向量形式；(2)将向量形式的数据上传至集群文件系统；(3)所述集群文件系统对向量形式的数据进行分块处理；(4)对分块处理后的数据进行map‑reduce处理过程得到统计信息；(5)根据统计信息训练分类器；(6)利用得到的分类器对测试用的文档进行分类。
地址	210046 江苏省南京市仙林大道163号

您可能感兴趣的专利

ДОЗАТОР ЖИДКОГО МЫЛА И МОЮЩЕГО СРЕДСТВА

ТРЯСИЛЬНАЯ МАШИНА

АППАРАТ ДЛЯ ЦЕНТРОБЕЖНОГО РАЗДЕЛЕНИЯ ГАЗО-ВОДОНЕФТЯНОЙ СМЕСИ, СОДЕРЖАЩЕЙ ТВЕРДЫЕ ПРИМЕСИ

УСТАНОВКА КАТАЛИТИЧЕСКОЙ ОЧИСТКИ ВОДЫ

КАВИТАТОР НЕПРЕРЫВНОГО ДЕЙСТВИЯ

КОНТЕЙНЕР БЫТОВОЙ

РЕЗИНОТКАНЕВЫЙ РЕЗЕРВУАР

МНОГОУРОВНЕВАЯ МЕХАНИЗИРОВАННАЯ ПОДЗЕМНАЯ ПАРКОВКА

КОМПОЗИЦИОННАЯ ОГНЕЗАЩИТНАЯ СИСТЕМА

РЕНТГЕНОДИАГНОСТИЧЕСКОЕ УСТРОЙСТВО РЕНТГЕНОВСКОГО ТЕЛЕУПРАВЛЯЕМОГО КОМПЛЕКСА ДЛЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

ВЫСОКОВОЛЬТНОЕ ЦИФРОВОЕ УСТРОЙСТВО ДЛЯ ИЗМЕРЕНИЯ ТОКА

СИСТЕМА НАГРЕВА ТОПЛИВНОГО ГАЗА В ГАЗОПЕРЕКАЧИВАЮЩЕМ АГРЕГАТЕ

РАСТЕНИЕВОДЧЕСКИЙ ИЗЛУЧАТЕЛЬ

Procedimiento de preparación de un producto alimenticio semifluido

Dispositivo de apriete de la conexión entre vástago y cruceta

Bicicleta de fácil conducción

BANDA FLEXIBLE CON HEBILLA

Equipo de recuperación de energía de purgas de calderas de vapor de agua

Disposición de contactos que tiene un cordón conductor doblado, relé que tiene una disposición de contactos y método de montaje de un relé

Derivados de piridinas y pirimidinas como agonistas de mGluR2