主权项 |
一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个文件段的特殊性等级并且识别特殊文件段的方法,该方法包括:(a)为包含在对比文件和目标文件中的每一个文件段确定相应的文件段矢量,每一个文件段矢量具有与在它相应的文件段中出现的项的出现频率相关的分量值;(b)根据上述文件段矢量,计算分别对应于对比文件和目标文件的平方和矩阵;(c)根据上述对应于对比文件和目标文件的平方和矩阵,计算目标文件的主体差异因子矢量的预定的阶号;(d)根据上述对应的文件段矢量和上述相应阶的主体差异因子矢量,计算上述相应阶的相应特殊性等级和对于目标文件的每一个文件段的总的特殊性等级;和(e)基于上述相应的阶的特殊性等级或根据目标文件的总的特殊性等级,在目标文件中识别一个特殊文件段,所述方法进一步包括:通过定义J作为一个出现在目标文件和对比文件中的项的类型的数目较大的一个,且定义M作为在目标文件中的文件段的数目,和定义第k个文件段矢量为dk=(dk1,..ddj)T(k=1,..,M)来计算目标文件的平方和矩阵,其中T表示矢量的转置,而dkj表示与第j个项出现在上述文件段中的出现频率相关的值,并且按照下列公式计算目标文件的平方和矩阵: <mrow> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>=</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>d</mi> <mi>k</mi> </msub> <msup> <msub> <mi>d</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <mo>,</mo> </mrow>通过定义N作为在对比文件中的文件段的数目,且定义第n个文件段矢量为tk=(tk1,..tkJ)T(k=1,..,N)来计算对比文件的平方和矩阵,其中T表示矢量的转置,tkj表示与第j个项存在于上述文件段中的出现频率相关的值,并且按照下列公式计算对比文件的平方和矩阵: <mrow> <msub> <mi>S</mi> <mi>T</mi> </msub> <mo>=</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>t</mi> <mi>k</mi> </msub> <msup> <msub> <mi>t</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <mo>,</mo> </mrow>和根据广义特征值问题的第i阶的特征向量αi按照下列公式计算目标文件的第i阶的主体差异因子矢量:SDα=λSTα。 |