发明名称 用于内容感知的数据分区和数据去重复的方法和设备
摘要 公开了用于内容感知的数据分区和数据去重复的方法和设备。系统和方法以内容感知的方式对数字数据单元进行分区,而不依赖于任何先辈信息,这使得可以发现甚至跨成千上万的计算机系统散布的跨数百万文档的不相关的数字数据单元中的重复的组块。
申请公布号 CN102301377A 申请公布日期 2011.12.28
申请号 CN200980155547.6 申请日期 2009.12.18
申请人 科普恩股份有限公司 发明人 S·加因;P·乔德里
分类号 G06F21/24(2006.01)I;G06F21/00(2006.01)I;G06F15/16(2006.01)I;G06F9/06(2006.01)I 主分类号 G06F21/24(2006.01)I
代理机构 中国国际贸易促进委员会专利商标事务所 11038 代理人 李向英
主权项 一种用于对数字数据分区和存储的计算机实现的方法,包括:确定数字数据的格式;标识所述数字数据内的源逻辑对象,其中,对所述源逻辑对象的标识至少部分地通过应用关于所述数字数据的格式的知识来完成;基于所确定的格式,执行下列操作中的一个或多个以创建结果对象:从所述源逻辑对象删除取决于位置的数据,从所述源逻辑对象删除取决于实例的数据,从所述源逻辑对象删除一个或多个特定格式的页眉或页脚,以及从所述源逻辑对象删除特定格式的变换;判断是否已经存储了所述结果对象;以及如果所述结果对象尚未被存储,则存储所述结果对象。
地址 美国马萨诸塞