发明名称 基于图数据结构的检索词优化方法
摘要 一种基于图数据结构的检索词优化方法,从图形的规则中抽取多个词集以及这些词集间的关系;整理词集和关系,为每个词集命名,将词集和关系简化成多行与或表达式;分析每行表达式,给每个词数集赋上一个权值;通过分词和倒文档率识别词性,从而准确的分析出词集与主题的关联度,从而能够从成千上万条规则中快速提取出最小且需求关联度最高的检索词集,其中在标引流程中获得较高的召回率,覆盖逻辑表达式最全且最小词数集的优化方法,使得最终产生的采集任务量减少,从而提高企业的生产效率。
申请公布号 CN105574085A 申请公布日期 2016.05.11
申请号 CN201510910407.2 申请日期 2015.12.10
申请人 天津海量信息技术有限公司 发明人 涂君兰;杨伟锋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市尚仪知识产权代理事务所(普通合伙) 12217 代理人 王山
主权项 一种基于图数据结构的检索词优化方法,包括以下步骤:A、从图形的规则中抽取多个词集以及这些词集间的关系,这些原始检索词被抽象为N行与或表达式;B、整理词集和词集间关系:为每个词集按行号及在行中所处位置命名,对于含有相同词的集合进行合并;C、分析每行表达式,统计同名词集出现的次数,以及每个词数集的词数,寻找词数少且覆盖表达式行数多的词数集计算该词的行数覆盖率,以词数的倒数加权到覆盖率上,获取中间权值;D、对词集进行滤噪处理,使用分词功能判断词的词性,去掉副词,感叹词,连词等无实际含义的词语;同时从近一个月词集样本中获取每个词的倒文档率,即该词的常见度,通过词性和倒文档率获取词与主题特征的相关度,从而为每个词设置一个权重;E、综合词数集的中间权值和词数集下每个词的权重,计算出每个词数集的最终权值,选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词;最终权值=中间权值+词集中词的平均权重的开方值。
地址 300020 天津市和平区南马路11号麦购国际大厦23层