发明名称 XML无线数据广播模式下基于访问概率的文档分片方法
摘要 本发明属于XML无线数据广播技术领域,具体为一种XML无线数据广播模式下的基于访问概率的文档分片方法。该方法的步骤包括:服务器根据XML文档集中每个元素节点的访问概率,计算每个元素节点的权重值。选择权重值最大的元素节点,将以其为根节点的文档片段分片出来形成一个新的XML文档,并将该文档加入XML文档集中。重复上述步骤直到XML文档集中的文档数量达到规定的阈值。构造索引结构并对XML文档集进行调度,将经过分片处理的XML文档集合广播出去。
申请公布号 CN102184239B 申请公布日期 2013.02.27
申请号 CN201110125815.9 申请日期 2011.05.16
申请人 复旦大学 发明人 孙未未;吴晶晶;刘鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 1.一种XML无线数据广播模式下基于访问概率的文档分片方法,其特征在于具体步骤如下:(1)对XML数据进行初始化: 对XML数据中的所有元素节点,根据每个<img file="26486DEST_PATH_IMAGE001.GIF" wi="21" he="62" />的访问概率<img file="474784DEST_PATH_IMAGE002.GIF" wi="49" he="62" />,计算<img file="21566DEST_PATH_IMAGE003.GIF" wi="64" he="62" />、<img file="947933DEST_PATH_IMAGE004.GIF" wi="83" he="62" />,然后根据公式(1)计算权重值<img file="90202DEST_PATH_IMAGE005.GIF" wi="105" he="62" />:<img file="443823DEST_PATH_IMAGE006.GIF" wi="588" he="157" />…….(1)式中,<img file="976435DEST_PATH_IMAGE007.GIF" wi="25" he="62" />为文档i的根节点;<img file="706494DEST_PATH_IMAGE002.GIF" wi="49" he="62" />为节点<img file="201804DEST_PATH_IMAGE001.GIF" wi="21" he="62" />的访问概率;<img file="460747DEST_PATH_IMAGE003.GIF" wi="64" he="62" />等于<img file="746235DEST_PATH_IMAGE008.GIF" wi="69" he="62" />,其中<img file="342301DEST_PATH_IMAGE010.GIF" wi="24" he="18" />为节点<img file="131266DEST_PATH_IMAGE011.GIF" wi="21" he="26" />的祖先节点;<img file="92268DEST_PATH_IMAGE012.GIF" wi="83" he="26" />等于<img file="163255DEST_PATH_IMAGE013.GIF" wi="143" he="35" />,其中<img file="969537DEST_PATH_IMAGE015.GIF" wi="36" he="22" />为节点<img file="878587DEST_PATH_IMAGE016.GIF" wi="21" he="22" />的子孙节点;<img file="2011101258159100001DEST_PATH_IMAGE018.GIF" wi="69" he="26" />为以<img file="2011101258159100001DEST_PATH_IMAGE019.GIF" wi="21" he="19" />为根节点的XML文档片段的大小;<img file="2011101258159100001DEST_PATH_IMAGE021.GIF" wi="68" he="28" />为与节点<img file="2011101258159100001DEST_PATH_IMAGE022.GIF" wi="21" he="21" />对应的虚拟节点的大小;(2)分片出一个新的XML文档片段:选择权重值最大的元素节点,将以其为根节点的文档片段分片出来,形成一个新的XML文档,并将该文档加入XML文档集中;(3)重复执行第(2)步,直到文档集中文档数量达到规定阈值T;(4)利用已有的索引技术和调度技术,组织广播内容,将该内容周期性的广播出去;(5)客户端协议:移动终端下载索引,根据索引信息获得匹配请求的文档片段ID和文档片段的广播时间;当用户下载完所需信息后,通过虚拟节点的信息,将XML文档片段还原;其中,所述步骤(1)中,为每个XML文档片段i分配一个对应的数组D<sub>i</sub>,将文档片段i中的元素节点指针存入D<sub>i</sub>中,根据元素的权重值<img file="2011101258159100001DEST_PATH_IMAGE023.GIF" wi="109" he="62" />从大到小排序;构造最大堆H,将所有文档片段i的指针存入堆中,根据文档i的对应数组D<sub>i</sub>[0]指向的元素节点权重值将堆进行调整,使得堆顶元素为全部XML数据中权重值最大的元素节点所在的文档指针;所述步骤(2)中所述分片出一个新的XML文档片段的具体操作如下: (a)根据最大堆H的堆顶元素获得包含最大元素节点权重值的文档i,则D<sub>i</sub>[0]指向的元素节点为新片段的根节点,将以该文档片段从源文档片段中分离出来形成新的文档片段i’;在源文档片段中该节点的位置上,放置一个虚拟节点,虚拟节点的标签名称为新片段的根节点标签名称,在虚拟节点中添加属性标识新片段的ID;(b)更新文档片段i’和源文档i中的元素节点的权重值,对数组D<sub>i</sub>和D<sub>i’</sub>按照权重值从大到小排序;(c)将堆顶元素的权值替换为排序后的D<sub>i</sub>[0]指向的元素节点的权重值,并对H进行调整;(d)将指向文档片段i’的指针元素插入到H中。
地址 200433 上海市杨浦区邯郸路220号