发明名称 评估文件的特殊性的方法
摘要 在自然语言处理中比较两个文件组,并通过以下手段估算一个文件组的每一个组成元素(例如一个句子,项或短语)的特殊性:将目标文件和对比文件分为文件段,构造每一个文件段的句子矢量,其分量是在文件段中出现的项的出现频率,在一个投影轴上投影两个文件的所有句子矢量以发现一个投影轴,该投影坐标轴使等于(起源于目标文件的投影值的平方和)/(起源于对比文件的投影值的平方和)的比率最大化。通过在投影轴上投影句子矢量来获取投影值,并在投影值的基础上计算目标文件的单独句子的特殊性等级。
申请公布号 CN1495644B 申请公布日期 2010.05.26
申请号 CN03154624.2 申请日期 2003.07.04
申请人 惠普开发有限公司 发明人 T·卡瓦塔尼
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 中国专利代理(香港)有限公司 72001 代理人 王岳;王勇
主权项 一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个文件段的特殊性等级并且识别特殊文件段的方法,该方法包括:(a)为包含在对比文件和目标文件中的每一个文件段确定相应的文件段矢量,每一个文件段矢量具有与在它相应的文件段中出现的项的出现频率相关的分量值;(b)根据上述文件段矢量,计算分别对应于对比文件和目标文件的平方和矩阵;(c)根据上述对应于对比文件和目标文件的平方和矩阵,计算目标文件的主体差异因子矢量的预定的阶号;(d)根据上述对应的文件段矢量和上述相应阶的主体差异因子矢量,计算上述相应阶的相应特殊性等级和对于目标文件的每一个文件段的总的特殊性等级;和(e)基于上述相应的阶的特殊性等级或根据目标文件的总的特殊性等级,在目标文件中识别一个特殊文件段,所述方法进一步包括:通过定义J作为一个出现在目标文件和对比文件中的项的类型的数目较大的一个,且定义M作为在目标文件中的文件段的数目,和定义第k个文件段矢量为dk=(dk1,..ddj)T(k=1,..,M)来计算目标文件的平方和矩阵,其中T表示矢量的转置,而dkj表示与第j个项出现在上述文件段中的出现频率相关的值,并且按照下列公式计算目标文件的平方和矩阵: <mrow> <msub> <mi>S</mi> <mi>D</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>d</mi> <mi>k</mi> </msub> <msup> <msub> <mi>d</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <mo>,</mo> </mrow>通过定义N作为在对比文件中的文件段的数目,且定义第n个文件段矢量为tk=(tk1,..tkJ)T(k=1,..,N)来计算对比文件的平方和矩阵,其中T表示矢量的转置,tkj表示与第j个项存在于上述文件段中的出现频率相关的值,并且按照下列公式计算对比文件的平方和矩阵: <mrow> <msub> <mi>S</mi> <mi>T</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>t</mi> <mi>k</mi> </msub> <msup> <msub> <mi>t</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <mo>,</mo> </mrow>和根据广义特征值问题的第i阶的特征向量αi按照下列公式计算目标文件的第i阶的主体差异因子矢量:SDα=λSTα。
地址 美国德克萨斯州