发明名称 文档主题词提取方法及装置
摘要 本发明公开了一种文档主题词提取方法及装置。所述方法包括:对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,并根据所述权值,确定该分词在所述目标文档中的词频权重;基于所述文档库,确定所述分词的逆向文档频率;基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。由此使得所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。
申请公布号 CN105630769A 申请公布日期 2016.06.01
申请号 CN201510990608.8 申请日期 2015.12.24
申请人 东软集团股份有限公司 发明人 赵博
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人 南毅宁;桑传标
主权项 一种文档主题词提取方法,其特征在于,所述方法包括:对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,并根据所述权值,确定该分词在所述目标文档中的词频权重;基于所述文档库,确定所述分词的逆向文档频率;基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。
地址 110179 辽宁省沈阳市浑南新区新秀街2号