发明名称 一种支持多语言的XML数据库全文检索方法
摘要 本发明提供了一种支持多语言的XML数据库全文检索方法。本发明的技术方案可以让XML数据库管理系统不再依赖于语言选项设置,支持在同一个文本匹配条件中使用多种语言构成的查询条件字符串进行全文检索,且被检索的XML文档内部亦可同时含有多种语言文字。本发明的技术方案对于以互联网为基础的国际化大潮下大量的多语言文本的全文检索具有更大的实用价值,因为这样的文本内容和全文检索需求会不断快速增长,限定于单一语言的全文检索无法满足这类需求,只有支持多语言全文检索的XML数据库管理系统才具有实用价值。特别是在中文用户群中该功能更加有用,可以适应当前中文文本中大量含有英文单词的现状和检索需求。
申请公布号 CN102760166B 申请公布日期 2014.07.09
申请号 CN201210193936.1 申请日期 2012.06.12
申请人 北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司 发明人 赵伟;郑程光;孙伟丰;罗正海;李泉;李浩;李书淦;程仁波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 王达佐
主权项 一种支持多语言的XML数据库全文检索方法,其特征在于,包括以下的步骤:分别构建stemming词汇表、thesaurus词汇表和stopwords词汇表,具体为将多种语言的词根存储至所述stemming词汇表,将多种语言的词汇间关系存储至所述thesaurus词汇表,将多种语言的停用词存储至stopwords词汇表中;分别将所述stemming词汇表、所述thesaurus词汇表和所述stopwords词汇表存储至XML数据库管理系统的查询引擎中;分别设置所述stemming词汇表、所述thesaurus词汇表和所述stopwords词汇表各自对应的唯一的查询字符串作为其主键标识;在全文检索查询语句中引用所述stemming词汇表、所述thesaurus词汇表和所述stopwords词汇表;所述查询引擎分别以所述查询字符串为主键从stemming词库中查找所述stemming词汇表、从thesaurus词库中查找所述thesaurus词汇表,从stopwords词库中查找所述stopwords词汇表,并得到各自存储的字符串内容;按照所述stemming词汇表的预定义格式解析从所述stemming词汇表中查找得到的所述字符串、按照所述thesaurus词汇表的预定义格式解析从所述thesaurus词汇表中查找得到的字符串以及按照所述stopwords词汇表的预定义格式解析从所述stopwords词汇表中查找得到的字符串;所述查询引擎分别将所述经过解析的字符串从相应的词汇表中取出并存储至相应的内存数据结构中,以快速查找任意单词的词根、词间关系和停用词。
地址 100871 北京市海淀区成府路298号方正大厦5层