发明名称 |
对文档进行分类的方法及装置 |
摘要 |
本发明实施例提供了一种对文档进行分类的方法及装置。该方法主要包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得所述待分类文档的词语聚类结果和知识信息聚类结果。然后,将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组或者与所述知识信息聚类结果进行相似度计算,根据所述相似度计算的结果对所述待分类文档进行分类。本发明实施例通过基于知识监督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,从而避开了传统的分类方法中的人工标注大规模的训练语料数据的环节。 |
申请公布号 |
CN101853250A |
申请公布日期 |
2010.10.06 |
申请号 |
CN200910081157.0 |
申请日期 |
2009.04.03 |
申请人 |
华为技术有限公司 |
发明人 |
薛贵荣;刘存伟;黄西华;万嘉;陆元飞 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京凯特来知识产权代理有限公司 11260 |
代理人 |
郑立明 |
主权项 |
一种对文档进行分类的方法,其特征在于,包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |