发明名称 一种XML数据库全文检索的文本相关度计算方法和系统
摘要 本发明提供一种XML数据库全文检索的文本相关度计算方法和系统包括:计算包括XQuery Fulltext查询语法树中的叶节点在内的所有内节点的子节点的相关度和权重值;将所述内节点的所有子节点的相关度和权重值分别保存在两个数组中;获取所述内节点的所有子节点的相关度和权重值;根据所获取的所述内节点的所有子节点的相关度和权重值计算所述内节点的相关度。本发明的技术方案可以有效、合理地计算出文本检索的相关度,其所采用的计算方法简单、高效,计算开销可以忽略不计,有效节约了资源,并且用这种方法计算的相关度具有较强的合理性,能够反映出用户的查询意图,并且满足XQuery Fulltext对score变量的约束。
申请公布号 CN102799685B 申请公布日期 2016.06.01
申请号 CN201210265017.0 申请日期 2012.07.27
申请人 北大方正集团有限公司;方正信息产业控股有限公司;上海方正数字出版技术有限公司 发明人 赵伟;郑程光;孙伟丰;罗正海;李泉;李浩;李书淦;程仁波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 王达佐
主权项 一种XML数据库全文检索的文本相关度计算方法,其特征在于,包括:计算包括XQuery Fulltext查询语法树中的叶节点在内的所有内节点的子节点的相关度和权重值;将所述内节点的所有子节点的相关度和权重值分别保存在两个数组中;获取所述内节点的所有子节点的相关度和权重值;根据所获取的所述内节点的所有子节点的相关度和权重值计算所述内节点的相关度S<sub>0</sub>具体为,利用下述的公式计算:<img file="FDA0000862321890000011.GIF" wi="413" he="95" />其中,假设所述内节点具有N个子节点,所述的每个子节点有自己的相关度和权重,分别为s1,s2…sn和w1,w2,…wn,si、wi分别表示所述内节点的第i个子节点的相关度和权重值;所述叶节点的相关度根据下述的公式计算得到:S=M/N;其中,M为查询字符串经过分词后得到的若干个目标查询单词在被检索的文本字符串中出现的总次数,N为将所述被检索的文本字符串分词后得到的单词的总数。
地址 100871 北京市海淀区成府路298号方正大厦5层