发明名称 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
摘要 本发明利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法,在获得用户提交的用户查询以后,首先对查询进行预处理,然后分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块,分别由查询分析模块完成查询的词组生成工作;由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据,进行网页文本数据处理,进而生成倒排表的工作;然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配,并在搜索引擎给出的原排序基础上,根据词组匹配程度,对原排序进行调整,最后将最终结果返回到用户端,同时可以给出网页的自动摘要;本发明具有更高的排序科学性。
申请公布号 CN101201838A 申请公布日期 2008.06.18
申请号 CN200710143023.8 申请日期 2007.08.21
申请人 新百丽鞋业(深圳)有限公司;邓亚丽 发明人 邓剑波;戴云川;詹天荣;张潘;高潮;周波;张森;胡显如
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人
主权项 1.一种利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法,其特征在于:在获得用户提交的用户查询以后,首先对查询进行预处理,主要完成联想和问句处理工作:一、对查询进行联想,获得更精准的查询表述;二、如果用户的原始查询是问句,则利用问句模式匹配程序,将问句转换为陈述句;然后将预处理后的查询,分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块,分别由查询分析模块完成查询的词组生成工作;由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据,进行网页文本数据处理,进而生成倒排表的工作;然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配,并在搜索引擎给出的原排序基础上,根据词组匹配程度,对原排序进行调整,最后将最终结果返回到用户端,同时可以给出网页的自动摘要。
地址 518033广东省深圳市福田中心区福华一路98号卓越大厦12-13楼新百丽鞋业(深圳)有限公司
您可能感兴趣的专利