发明名称 文档的分类方法和装置
摘要 本发明实施例提供了一种文档的分类方法和装置,该方法包括:通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;通过对向量聚类生成相似分词集合;根据特征的集合将待分类文档转换为特征频率逆文档矩阵;通过计算任意两个待分类文档的向量间的相似度,将特征频率逆文档矩阵转换为层次聚类树;基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档。本发明在文档分类时考虑到了分词在特定语境中的上下文信息,从而使得每类文档在语义理解度和语义识别度上均较高;并且,基于预设的终止条件来对层次聚类树进行不同高度的切割,避免了每类文档中文档个数差异大的问题,使得文档的分类更加合理。
申请公布号 CN106126734A 申请公布日期 2016.11.16
申请号 CN201610519971.6 申请日期 2016.07.04
申请人 北京奇艺世纪科技有限公司 发明人 丁希晨
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京润泽恒知识产权代理有限公司 11319 代理人 苏培华
主权项 一种文档的分类方法,其特征在于,包括:通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;通过对所述向量聚类生成相似分词集合,其中,每个相似分词集合包括表示相同特征的多个向量;根据所述特征的集合将所述待分类文档转换为特征频率逆文档矩阵;通过计算所述特征频率逆文档矩阵中任意两个待分类文档的向量间的相似度,将所述特征频率逆文档矩阵转换为层次聚类树;基于预设的终止条件对所述层次聚类树在不同高度进行动态切割,得到分类文档。
地址 100080 北京市海淀区北一街2号鸿城拓展大厦10、11层