发明名称 基于文字异形体信息的搜索引擎方法
摘要 一种基于文字异形体信息的搜索引擎方法,包括通讯连接的客户端和服务器端,其中:所述服务器端包括:文本信息获取步骤,文本分词步骤,转换步骤,索引步骤,用于对所述转换步骤的输出进行倒排序索引;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述客户端包括:用户输入步骤,文本分词步骤,转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;查询步骤,用于将所述转换步骤输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;结果返回步骤。本发明可广泛应用于含有异形体的文字信息检索,并且可以通过文字的其它形体进行搜索,并返回对应该文字信息的搜索结果。
申请公布号 CN101814073A 申请公布日期 2010.08.25
申请号 CN200910046475.3 申请日期 2009.02.23
申请人 未序网络科技(上海)有限公司 发明人 邓晓涛;谢兵;杨杰;程健章
分类号 G06F17/30(2006.01)I;G06F17/28(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海金盛协力知识产权代理有限公司 31242 代理人 段迎春
主权项 一种基于文字异形体信息的搜索引擎方法,包括运行于客户端的步骤和运行于服务器端的步骤,其特征在于:所述运行于服务器端的步骤依次包括:文本信息获取步骤,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;文本分词步骤,用于将所述文本信息获取步骤获取的文本信息进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;索引步骤,用于对所述转换步骤的输出进行倒排序索引,并计算权重;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述运行于客户端的步骤依次包括:用户输入步骤,用于接受用户输入的查询关键词和查询条件;文本分词步骤,用于将所述用户输入步骤获取的查询关键词进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;查询步骤,用于将所述转换步骤输出的词条与用户输入的查询条件进行组合,查询所述服务器端建立的索引文件库,并输出查询结果;结果返回步骤,用于返回所述查询步骤的查询结果。其中,所述服务器端与客户端的转换步骤中均对应包括以下转换器中的多个或全部:中文简繁体转换步骤,用于中文简体和繁体的转换;字符全半角转换步骤,用于全角字符和半角字符的转换;中文数字转换步骤,用于将中文表示的数字格式转换阿拉伯表示的数字;日期格式转换步骤,用于判别日期格式,并将日期格式转换成定义的统一格式。
地址 200003 上海市南苏州路1305号6号门