发明名称 一种分布式文本拷贝检测系统
摘要 本发明属于电子文本拷贝检测技术领域,具体为一种针对大规模文档集中两两文档间进行拷贝检测的分布式索引建立以及分发方法和一种分布式文本拷贝检测系统。所述方法是将整个文档集上的拷贝检测分割成个若干的子任务,每个子任务中只用到单个计算机节点中保存的文档和整个文档集所有文档集的一部分文档组成的索引,从而使得每个子任务可以在单独的节点上运行,减小了网络开销。系统基于Map-Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架,具有良好的可扩展性,适合处理大规模文本集上的拷贝检测,电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上。
申请公布号 CN102591978B 申请公布日期 2013.11.27
申请号 CN201210001424.0 申请日期 2012.01.05
申请人 复旦大学 发明人 张玥;张奇;黄萱菁
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 一种分布式文本拷贝检测系统,其特征在于系统基于Map‑Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架;电子文本数据集通过磁盘介质作为输入进入到拷贝检测系统;拷贝检测系统是由多台计算机组成的集群系统,用于对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上,一台计算机称为一个节点;电子文本数据集简称文档集,每个文档包括一个唯一标示的ID和内容;本系统包括:分布式计算框架子系统,特征提取子系统,文本索引子系统,索引分发子系统,拷贝检测子系统,分布式文件存储子系统,分布式缓存子系统七个子系统; 所述分布式计算框架子系统,是整个文本拷贝检测系统的中央控制模块;该分布式计算框架子系统建立在Hadoop的Map‑Reduce框架基础上,利用Hadoop框架对其他子系统进行控制; 通过对其他子系统发送控制指令,完成Map‑Reduce任务的调度、监控以及衔接;文本拷贝检测系统采用迭代多轮的方法进行拷贝检测,其中迭代的过程也由该分布式计算框架子系统控制;所述特征提取子系统,用于将原始文本文档转换为文本特征向量;该特征提取系统从分布式文件存储子系统中读取原始文本文件,对其进行数据清洗、分词、特征抽取操作;并将抽取的特征以文档特征向量的形式写入分布式文件存储子系统;所述文本索引子系统,负责根据特征向量,对文档建立分布式倒排索引;该文本索引子系统每次读入一部分文档的特征向量,对其建立倒排索引,将所得的索引分块写入分布式文件存储子系统;所述索引分发子系统,负责在每一轮拷贝检测迭代过程中,向各个节点发送索引分块;该索引分发子系统根据配置,从分布式文件存储子系统中读取索引分块,存入分布式缓存子系统中,使得每一个节点都可以读取这些索引分块;该索引分发子系统与拷贝检测子系统相互配合,在分布式计算框架子系统的控制之下,实现多轮迭代的拷贝检测;所述拷贝检测子系统,负责进行拷贝检测任务;该拷贝检测子系统从分布式文件存储子系统中读取文档特征向量,并从分布式缓存子系统中读取分布式索引分块;通过读取的文档特征向量,在索引中查找相似的文档对,并按照特征计算相似度,对于相似度超过阈值的文档对,将其ID号的组合输出到分布式文件存储子系统中; 所述分布式文件存储子系统,基于Hadoop的HDFS分布式文件系统,用于存储系统的输入,输出以及作为各模块之间的中间数据;所述分布式缓存子系统,基于Hadoop的HDFS分布式文件系统缓存,用于存储分布式索引分块;通过Round Robin算法控制每个节点上缓存的内容,从而分散对分布式文本拷贝检测系统各个节点的读写数据流,防止出现单点密集读写而降低总体性能的问题。
地址 200433 上海市杨浦区邯郸路220号