文档的分类方法和装置,申请号CN201610519971.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	文档的分类方法和装置
摘要	本发明实施例提供了一种文档的分类方法和装置，该方法包括：通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量；通过对向量聚类生成相似分词集合；根据特征的集合将待分类文档转换为特征频率逆文档矩阵；通过计算任意两个待分类文档的向量间的相似度，将特征频率逆文档矩阵转换为层次聚类树；基于预设的终止条件对层次聚类树在不同高度进行动态切割，得到分类文档。本发明在文档分类时考虑到了分词在特定语境中的上下文信息，从而使得每类文档在语义理解度和语义识别度上均较高；并且，基于预设的终止条件来对层次聚类树进行不同高度的切割，避免了每类文档中文档个数差异大的问题，使得文档的分类更加合理。
申请公布号	CN106126734A	申请公布日期	2016.11.16
申请号	CN201610519971.6	申请日期	2016.07.04
申请人	北京奇艺世纪科技有限公司	发明人	丁希晨
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京润泽恒知识产权代理有限公司 11319	代理人	苏培华
主权项	一种文档的分类方法，其特征在于，包括：通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量；通过对所述向量聚类生成相似分词集合，其中，每个相似分词集合包括表示相同特征的多个向量；根据所述特征的集合将所述待分类文档转换为特征频率逆文档矩阵；通过计算所述特征频率逆文档矩阵中任意两个待分类文档的向量间的相似度，将所述特征频率逆文档矩阵转换为层次聚类树；基于预设的终止条件对所述层次聚类树在不同高度进行动态切割，得到分类文档。
地址	100080 北京市海淀区北一街2号鸿城拓展大厦10、11层

您可能感兴趣的专利

DERIVADOS PUENTE DE PIPERAZINA.

Dispositivos de distribuição de drogas transdérmicas possuindo microprotuberâncias revestidas

Rechargeable light

Hygienic napkin

Diaper fastener

Breast pump adapter

Blade holder for a ceiling fan

Open-center battery-powered ice fishing hole heater

Towel warming device

Compressible exercise device

Point-of-sale-activation device

Electronic organizer

Automobile pedal cover

Television camera