发明名称 字符串值域切分方法及装置
摘要 本申请公开了一种应用于数据仓库集成领域的字符串值域切分方法及装置,该方法包括:提取待抽取数据主键中ASCII码值最大及最小的字符串,根据ASCII码值以及预置的进制基数按权展开求和将字符串转化为大整数,组成待切分范围,求其范围差,根据范围差和预置切分份数对待切分范围进行均等切分,得到切分步长,从而能够得到切分节点对应的大整数,采用辗转相除法将切分节点对应的大整数还原为切分节点字符串,根据切分节点字符串生成多条数据抽取语句,进而实现多线程加速抽取。本申请还对上述方法进行了优化,即在按权展开求和以及辗转相除过程中采用缩小的进制基数。本发明极大地提高了数据传输过程中的并发性、高效性。
申请公布号 CN106294371A 申请公布日期 2017.01.04
申请号 CN201510250681.1 申请日期 2015.05.15
申请人 阿里巴巴集团控股有限公司 发明人 何健超;陈守元;邓小勇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京国昊天诚知识产权代理有限公司 11315 代理人 许志勇;刘戈
主权项 一种字符串值域切分方法,应用于数据仓库集成领域,其特征在于:提取待抽取数据的主关键字中ASCII码值最大的字符串为第一字符串、ASCII码值最小的字符串为第二字符串;根据预置的进制基数,分别结合第一、第二字符串中相应的单个字符所处的位置序号将所述第一、第二字符串转化为完全不失真的第一大整数和第二大整数,其中该所述位置序号是单个字符在相应字符串中的排列次序;根据所述第一大整数和第二大整数求取范围差,判定根据预置的切分份数对所述范围差进行均等切分结果为整数时,将所述整数作为切分步长;根据所述第二大整数与切分步长进行累加求和,得到每个切分节点所对应的大整数,其中,该切分节点由所述均等切分得到;根据所述进制基数将所述每个切分节点对应的大整数还原成ASCII码值,根据ASCII码值得到相应的每个切分节点的节点字符串,根据所述节点字符串对待抽取数据进行切分。
地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱