发明名称 一种利用语义分析的垂直搜索引擎系统
摘要 本发明公开了一种利用语义分析的垂直搜索引擎系统。该系统包括文本语义分析、索引系统、检索系统三个模块。文本语义分析模块以句为单位,提取文本中每个句子所表示的语境属性,并对语境属性进行切分标注;语境属性综合了词语的出现次数、词语的概念属性和词语在句子中的语义地位;索引模块为每种类型的语境属性单独建立索引;在检索时,可以对不同语境属性进行独立检索,也可以进行组合检索。本发明的优点在于,利用语境属性来表示词语所在的语言环境,这样在检索时,可以增加语言环境的限定,使得检索结果的相关度更好。本发明特别适合于企业搜索、垂直搜索等与领域相关的搜索引擎系统,也适合于通用搜索引擎对大量“暗网”数据的处理。
申请公布号 CN102200975B 申请公布日期 2013.12.11
申请号 CN201010132348.8 申请日期 2010.03.25
申请人 北京师范大学 发明人 晋耀红
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京万科园知识产权代理有限责任公司 11230 代理人 杜澄心;张亚军
主权项 一种利用语义分析技术实现垂直搜索引擎的系统,其特征在于它包括:文本语义分析模块、索引系统模块和检索系统模块,其中,所述文本语义分析模块负责对文本进行分析,提取文本中的语境属性,形成带语境属性的标注文本;所述索引系统模块负责调用文本语义分析模块,并根据分析结果,为待索引文本,在索引库中建立索引;所述检索系统模块负责接收用户的搜索请求,对请求进行解析,从索引库中检索到相应的结果,对结果进行合并和相关度计算,并返回给用户;所述索引系统模块包括以下模块:模块41,判断是否已到文本末尾;如果是,则结束;否则转模块42;模块42,提取下一个属性开始标志<SemPropN>;模块43,提取该属性的结束标志</SemPropN>;模块44,对开始标志和结束标志之间的内容wordlist,进行分词;模块45,判断当前属性SemPropN是否在索引库中已存在;如果是,则转模块47;否则转模块46;模块46,在索引库(17)中增加一个子库,其名为SemPropN;转模块47;模块47,用于wordlist的分词结果加入到索引库,如果是词,则把词索引加入到索引子库SemPropN中;如果是字,则把字索引加入到索引子库SemPropN中;所述索引系统模块负责调用文本语义分析模块,并根据分析结果,为待索引文本,在索引库中建立索引;所述检索系统模块包括搜索请求分析模块、对索引库的检索模块,以及检索结果生成模块三个子模块;搜索请求分析模块解析用户的请求,给出每个语境属性的请求串和语境属性之间的逻辑关系;搜索请求分析模块在搜索请求串中,语境属性有几种表示方式:在请求串中用“@语境属性”或者“:语境属性”来表示;在搜索页面上,采用勾选的方式选择;所述的搜索请求分析模块把请求串解析为多个子请求串Qi以及Qi之间的逻辑关系,其中用“()”来表示层次关系;所述子请求串Qi用以下方式表示,其中Qi表示解析出的一个子请求串,wordlist表示Qi这个子请求串 所包含的检索词,SemPropi表示Qi子请求串所对应的语境属性,Q1:wordList@SemProp1Q2:wordList@SemProp2Qn:wordList@SemPropN所述对索引库的检索模块包括:模块54,对每个Qi进行检索;模块55,选择Qi对应的语境属性SemPropi所在的子索引库SemPropi_index;模块56,在子索引库SemPropi_index中,对Qi的wordlist中的每个词语word进行检索;模块57,对每个word检索返回的结果,进行word和文档之间的相关度计算,并排序;模块58,对wordlist中的所有词语word的检索结果集,进行与操作,形成子请求串Qi的结果集;检索结果生成模块包括:模块59,利用子请求串Qi之间的逻辑关系(53),对所有Qi的结果集进行逻辑运算;模块510,对结果集进行相关度调整;并输出结果集给用户(12);文本语义分析模块包含一个本体定义模块、一个语境属性模块,其中,该本体定义模块在管理员配置垂直搜索引擎时,根据所属的行业和领域的特点,所定义文本语境属性的分类标准;该语境属性模块根据本体定义模块,对待索引文档进行分析,提取文档中的每个句子的语境属性,并把语境属性标注到原始文档中,形成带语境属性的标注文本。
地址 100875 北京市海淀区新街口外大街19号