发明名称 局部对应抽出装置以及局部对应抽出方法
摘要 本发明的目的在于,提供网罗性地抽出在没有预先进行索引化的任意的字符串之间具有代表性的局部对应的局部对应抽出装置。一种具备抽出在任意的两个文件之间类似的字符串的局部对应的局部对应抽出部的局部对应抽出装置,其特征在于,在表示与迁移源网格对应的第二矩阵的网格属于某一个局部对应且通过第一矩阵生成部计算出的最大分值比规定值更大的情况下,并且在计算出的分值比相同的局部对应所属的网格的最大分值更大的情况下,将与计算对象的网格对应的两个字符作为局部对应的终点来存储。
申请公布号 CN102402567A 申请公布日期 2012.04.04
申请号 CN201110241220.X 申请日期 2011.08.22
申请人 株式会社日立制作所 发明人 岩山真
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 永新专利商标代理有限公司 72002 代理人 杨谦;胡建新
主权项 一种局部对应抽出装置,具备抽出在任意的两个文件之间的类似的字符串即局部对应的局部对应抽出部,其特征在于,上述局部对应抽出部具有:第一矩阵生成部,将构成上述两个文件中的一个文件的字符串作为行,将构成另一个文件的字符串作为列,在与构成上述行的字符串的字符以及构成上述列的字符串的字符对应的网格中登记表示与该网格对应的两个字符的类似度的分值,从而生成第一矩阵;以及第二矩阵生成部,在由与上述第一矩阵的网格对应的网格构成的第二矩阵的网格中的、与由上述第一矩阵生成部计算出分值的网格对应的网格中登记与该网格对应的两个字符所属的局部对应的标识符,从而生成上述第二矩阵;与上述第一矩阵的网格对应的两个字符的类似度越大,则登记在该网格中的分值所示出的值越大,上述第一矩阵生成部,基于从与上述分值的计算对象的网格相邻的网格中的已计算出分值的网格开始到该计算对象的网格为止的路径被预先设定的值,计算上述计算对象的网格的分值,将上述计算出的分值中最大的分值作为上述计算对象的网格的分值来登记,将成为计算出上述最大的分值的路径的起点的上述网格作为迁移源网格来存储,上述第二矩阵生成部,在示出与上述迁移源网格对应的上述第二矩阵的网格不属于任何局部对应且通过上述第一矩阵生成部计算出的最大的分值为规定值的情况下,在与上述计算对象的网格对应的上述第二矩阵的网格中登记新的局部对应的标识符,并作为上述新的局部对应的起点存储上述计算对象的网格,在示出与上述迁移源网格对应的上述第二矩阵的网格属于某个局部对应且通过上述第一矩阵生成部计算出的最大的分值比上述规定值大的情况下,在与上述计算对象的网格对应的上述第二矩阵的网格中登记与上述迁移源网格对应的上述第二矩阵的网格中所登记的局部对应的标识符,进而,在上述计算出的分值比属于相同的局部对应的网格的最大的分值大的情况下,作为上述局部对应的终点存储上述计算对象的网格。
地址 日本东京都