发明名称 |
文档主题词提取方法及装置 |
摘要 |
本发明公开了一种文档主题词提取方法及装置。所述方法包括:对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,并根据所述权值,确定该分词在所述目标文档中的词频权重;基于所述文档库,确定所述分词的逆向文档频率;基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。由此使得所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。 |
申请公布号 |
CN105630769A |
申请公布日期 |
2016.06.01 |
申请号 |
CN201510990608.8 |
申请日期 |
2015.12.24 |
申请人 |
东软集团股份有限公司 |
发明人 |
赵博 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京英创嘉友知识产权代理事务所(普通合伙) 11447 |
代理人 |
南毅宁;桑传标 |
主权项 |
一种文档主题词提取方法,其特征在于,所述方法包括:对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,并根据所述权值,确定该分词在所述目标文档中的词频权重;基于所述文档库,确定所述分词的逆向文档频率;基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。 |
地址 |
110179 辽宁省沈阳市浑南新区新秀街2号 |