主权项 |
一种基于拼音的全文检索方法,包括如下步骤:S11:用户输入关键词或词组时,以空格、标点符号、制表符作为分隔符进行分割,提取关键词;用户输入句子、段落时,按照分割时不能破坏句子的完整性和每块不超过64kb大小的原则提取关键词;S12:将提取的关键词存储到检索词集合中,并将每个汉字分别转换为拼音,建立拼音检索词集合;S13:将含有相同的拼音项的物理位置进行合并,按物理位置的数值增序存储;将拼音项进行索引并按字母顺序排序;S14:检索时,接受用户输入的关键词、句子、段落并进行预处理,将汉字转换成拼音,查询拼音索引文件得到检索结果。 |