发明名称 基于语义相关的XML文档关键字检索排序方法
摘要 本发明公开了一种基于语义相关的XML文档关键字检索排序方法,依次解析XML文档,计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度,优化检索时间,对所输入的查询关键字进行单词归根处理,在倒排索引中取出关键字对应的主题节点信息以及相关度信息,对距离关键字最近的主题进行检索,对检索结果进行相关度从高到低排序,对距离关键字次近的主题进行检索,根据结果的Dewey码返回信息片段给用户。本发明针对XML数据独有的结构语义特点,提出了SRank相关度检索模型及方法,可以提高检索结果的准确率。
申请公布号 CN102081660B 申请公布日期 2012.11.21
申请号 CN201110007177.0 申请日期 2011.01.13
申请人 西北工业大学 发明人 陈群;王鹏;娄颖;崔海文;李霞;张立军;李战怀
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 顾潮琪
主权项 1.一种基于语义相关的XML文档关键字检索排序方法,其特征在于包括下述步骤:1)采用有序标签树模型作为XML文档模型,采用深度优先法遍历树模型,解析XML文档,采用Porter Stemming算法对全部单词进行归根处理,确定所有主题节点,使用Dewey编码的方式对主题进行编码;所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点;2)计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度,所述的属性节点是以其为根的子树只包含文本内容的节点,计算方法如下:主题节点与属性节点的语义相关度用他们之间的距离的倒数来表示,<img file="FSB00000868299700011.GIF" wi="356" he="107" />属性节点与关键字的语义相关度<img file="FSB00000868299700012.GIF" wi="813" he="121" />其中,L<sub>a</sub>表示条件属性关键字,T表示主题节点,perc(k,e<sub>r</sub>)表示在以e<sub>r</sub>为根节点的XML树中以L<sub>a</sub>为标签的属性中包含关键字k的比例,freq(L<sub>a</sub>)表示以e<sub>r</sub>为标签的所有XML子树中包含以L<sub>a</sub>为标签的属性的个数,freq(k,L<sub>a</sub>)表示以e<sub>r</sub>为标签的所有XML子树中包含以L<sub>a</sub>为标签的属性的个数,并且该属性包含关键字k;3)将关键字对应的最低主题节点位置信息和步骤2)所计算出的主题节点与属性节点以及属性节点与关键字的语义相关度封装在一起保存在倒排索引中,并对位置信息中的Dewey码建立B+树索引,通过该索引结构优化检索时间;4)用户输入查询关键字,对所输入的查询关键字采用Porter Stemming算法进行单词归根处理;5)在倒排索引中取出关键字对应的主题节点信息以及相关度信息,关键字的倒排索引中保存包含这个关键字的一系列主题位置,以及关键字与属性节点、属性节点与主题节点的语义相关度,倒排表按照包含这个节点的最低主题节点的Dewey码LED排序,如果一个节点是属性节点,那么它的LED为其父节点的Dewey码;6)对距离关键字最近的主题进行检索,如果一个LED包含了所有的关键字,那么这个LED将被作为一个结果计算其相关度,计算方法如下:<img file="FSB00000868299700013.GIF" wi="934" he="113" />k表示返回属性关键字,是表明用户 查询返回的关键字,sc(k′,L<sub>a</sub>)表示查询条件,k′表示条件值关键字,是查询条件的文本值关键字,L<sub>a</sub>表示条件属性关键字,条件属性关键字是一类属性节点的名字,表明了用户的查询条件;如果一个LED没有包含所有的关键字,那么将该LED的父节点加入到查询队列中;7)对检索结果进行相关度从高到低排序,当检索完所有结果或者达到用户要求的K个结果时算法结束,并输出结果;8)对距离关键字次近的主题进行检索,重复步骤6)和步骤7);9)根据结果的Dewey码返回信息片段给用户。 
地址 710072 陕西省西安市友谊西路127号