发明名称 一种XML文档索引结构
摘要 本发明公布了一种新的XML文档的索引结构,属于数据检索领域。对于XML文档中的节点,定义其LAF编码由三部分组成:节点的层次遍历序号、其父节点的层次遍历序号、该节点所在的深度。进而提出基于LAF编码的二级索引结构,在该索引结构中,XML文档的普通文本属性被存储在第一级索引中,而半结构属性被存储在第二级中,两级索引间通过指针关联起来。本发明提出这种二级索引技术,不仅能避免传统索引方法可能带来的冗余问题,同时也能支持较为高效的检索算法,减少检索算法对无效元素的处理。
申请公布号 CN101833588B 申请公布日期 2012.06.20
申请号 CN201010204388.9 申请日期 2010.06.21
申请人 北京大学 发明人 向永清;邓志鸿
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人 张肖琪
主权项 一种XML文档索引方法,该XML文档索引用于进行XML文档检索,所述XML文档与XML树对应,XML文档中的每个不同XML元素与对应于XML文档的XML树中的每个不同节点对应,XML文档的索引结构由关键词词典和倒排索引组成,所述倒排索引为二级索引,其特征在于,所述索引方法包括如下步骤:1)把XML文档的普通文本属性存储在第一级索引中;2)把XML文档的半结构属性存储在第二级索引中;3)两级索引间通过指针关联起来;其中,所述半结构属性指的是每个XML文档对应的LAF表,所述LAF表指的是一篇XML文档对应的XML树的所有节点的LAF编码按照层次遍历序号从小到大组成的有序编码集合;所述LAF编码是Level order And Father numbering,所述LAF编码由三部分组成:节点的层次遍历序号、该节点的父节点的层次遍历序号、该节点在XML树中的深度。
地址 100871 北京市海淀区颐和园路5号