发明名称 数据重复性校验方法和装置及系统
摘要 本发明实施例公开了一种数据重复性校验方法和装置及系统。该方法包括:将数据各字符的参数在并行索引树中分别与叶节点的参数进行匹配,并行索引树的每个叶节点分别与一个字符对应,且叶节点参数至少包括字符所在数据的字符串长度和字符在所述字符串中的位置;根据各字符的匹配结果判断所述数据是否与已存储的数据重复,若否,则将所述数据各字符的参数作为叶节点参数存储到所述并行索引树中。本发明实施例提供的数据重复性校验方法和装置,以并行索引树的形式对数据中各字符的参数值进行并行的匹配,并且该方案不依赖于存储数据的数据库,从而具有较小的索引量,能够显著提高数据重复性校验效率。
申请公布号 CN102024046B 申请公布日期 2013.04.24
申请号 CN201010588219.X 申请日期 2010.12.14
申请人 华为数字技术(成都)有限公司 发明人 刘洋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种数据重复性校验方法,其特征在于,包括:将数据各字符的参数在并行索引树中分别与叶节点的参数进行匹配,所述并行索引树的每个叶节点分别与一个字符对应,且叶节点的参数至少包括字符所在数据的字符串长度和字符在所述字符串中的位置,所述并行索引树包括B+树;所述并行索引树的数量为多个,各并行索引树的根节点对应数据字符串的首字符,则将数据各字符的参数在并行索引树中分别与叶节点的参数进行匹配包括:根据所述数据字符串的首字符选择对应的并行索引树;针对所述数据中各字符分别执行如下查找匹配操作:根据所述数据字符串的长度在选择的并行索引树查找叶节点所在层;根据字符在数据字符串中的位置,在查找到的叶节点所在层中查找匹配的叶节点,产生字符查找匹配结果;当识别到一个字符的字符查找匹配结果为否时,产生数据查找匹配结果,并停止其他字符的查找匹配操作;若所述数据各字符中任意一个字符在所述并行索引树中不存在对应的叶子节点,则确定所述数据与已存储的数据不重复,将所述数据各字符的参数作为叶节点的参数存储到所述并行索引树中,所述数据各字符的参数至少包括字符所在数据的字符串长度和字符在所述字符串中的位置。
地址 611731 四川省成都市高新区西部园区清水河片区