发明名称 基于搜索引擎的文档索引方法、数据查询方法及服务器
摘要 本申请实施例公开了基于搜索引擎的文档索引方法、数据查询方法及服务器,所述文档索引方法包括:获取待索引的文档,并对所述文档进行分词操作得到一元分词;判断每个一元分词是否为过滤字,若所述一元分词是过滤字,将所述一元分词和与所述一元分词顺序相邻的至少一个一元分词组成多元分词,对所述多元分词建立索引;若所述一元分词不是过滤字,则直接对所述一元分词建立索引。本申请实施例中在进行索引或查询时,将作为高频字的一元分词与其相邻的至少一个一元分词组成多元分词,以保证不会因为对高频字进行索引而导致查询时浪费搜索引擎的资源,并且也不会因为跳过对高频字的索引而导致查询结果不准确。
申请公布号 CN101963965A 申请公布日期 2011.02.02
申请号 CN200910151487.2 申请日期 2009.07.23
申请人 阿里巴巴集团控股有限公司 发明人 魏磊;沈加翔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明;王宝筠
主权项 一种基于搜索引擎的文档索引方法,其特征在于,包括:获取待索引的文档,并对所述文档进行分词操作得到一元分词;判断每个一元分词是否为过滤字,若所述一元分词是过滤字,将所述一元分词和与所述一元分词顺序相邻的至少一个一元分词组成多元分词,对所述多元分词建立索引;若所述一元分词不是过滤字,则直接对所述一元分词建立索引。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱