发明名称 面向领域整体的关键词集的评价和提取方法
摘要 本发明涉及一种领域关键词集的提取方法,它提出领域关键词集的概念,提出构建领域文集的词网、通过基于图结构的ranking算法计算词网节点的权重、利用搜索引擎调整词权、进而提取领域关键词集的方法。本发明的领域关键词集的提取方法,能够提高提取结果的领域特性和提取精度,能够适用于Web环境下大规模领域文集的领域关键词集的提取。
申请公布号 CN102375842A 申请公布日期 2012.03.14
申请号 CN201010259047.1 申请日期 2010.08.20
申请人 姚尹雄;唐新怀 发明人 姚尹雄;唐新怀
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下:1)打开一批领域文集;2)初始化词网:对领域文集预处理,将过滤后的实词作为词网的节点;3)通过兴趣度创建词网的有向边;4)用ranking算法计算节点的权重;5)通过搜索引擎来调整节点对应的实词的词权;6)统计实词的词权的排名;7)选择关键词:将排名最高的N个词作为领域关键词集。
地址 200030 上海市徐汇区华山路1954号浩然大厦11楼1115室