发明名称 将词组索引技术应用在互联网搜索引擎中的方法
摘要 本发明是将词组索引技术应用到互联网搜索引擎中,把网页文件中的句子分解成词语,以每个关键词为中心词,在其前和后附加上若干别的词组成索引词组集,以词组为单位生成网页内容的索引文件;将用户提交的查询信息,利用分词程序提取出查询信息中的实词,将这些词进行所有合理和可能的组合,得到用于检索的词组集;由匹配程序将用于检索的词组集中的词组依次与索引文件中的词组进行精确匹配,获得搜索结果;由于词组在表达语意方面要强于单个的词,使得搜索的结果更精确的体现查询者的可能意图。
申请公布号 CN101196898A 申请公布日期 2008.06.11
申请号 CN200710143024.2 申请日期 2007.08.21
申请人 新百丽鞋业(深圳)有限公司;邓亚丽 发明人 邓剑波;戴云川;詹天荣;张潘;高潮;周波;张森;胡显如
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人
主权项 1.将词组索引技术应用在互联网搜索引擎中的方法,其特征在于包括以下几个步骤:步骤一:自动积累网页信息:首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;步骤二、处理用户的查询信息:首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。步骤三、检索匹配并获得搜索结果:首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相关信息,从而获得搜索结果。
地址 518033广东省深圳市福田中心区福华一路98号卓越大厦12-13楼新百丽鞋业(深圳)有限公司