发明名称 |
一种文本的候选关键词的提取方法 |
摘要 |
本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完成比对。采用了本发明的技术方案,能够提高文本的标引质量,从而提高文本检索的查准率。 |
申请公布号 |
CN102682049B |
申请公布日期 |
2014.04.23 |
申请号 |
CN201110337333.X |
申请日期 |
2011.10.31 |
申请人 |
天脉聚源(北京)传媒科技有限公司 |
发明人 |
韩建波 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种文本的候选关键词的提取方法,其特征在于,包括以下步骤:A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;所述词项是自然词的词性、词形、命名实体或语义;B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;C、根据自然词数据库对文本进行词法分析,获得文本中每个自然词及其对应的词项;D、从模板库中按顺序抽取1个候选关键词模板;E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本中全部的自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;返回步骤D,直到所有的候选关键词模板完成比对。 |
地址 |
100007 北京市东城区安定门东大街28号雍和大厦E座808室 |