发明名称 使用分布式隐含语意索引的资讯撷取及本文探勘
摘要 本发明揭示一种调适以在大型异质资料集上运作之资讯撷取及本文探勘操作之隐含语意索引(latent semanticindexing;LSI)的使用,其系藉由首先将资料集分割成数个具有相似概念领域之较小分区。为了显示概念领域之间的链接,会产生一相似性图形网路,然后再用来决定要查询的领域及扩展查询向量。LSI最有可能在这些分割的资料集上执行,以容纳有关使用者查询或本文探勘操作之资讯。依此方式,即可在至此出现尺度性问题之资料集之中套用LSI。此外,还可以在不同的分布式电脑上完成文件项矩阵之奇异值分解的计算,既能增加该撷取及本文探勘系统的强韧性,又能减少搜寻时间。
申请公布号 TWI242730 申请公布日期 2005.11.01
申请号 TW093112343 申请日期 2004.04.30
申请人 泰克迪亚科技公司 发明人 克利福A 贝任;帝维希斯 巴素
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 陈长文 台北市松山区敦化北路201号7楼
主权项 1.一种用于处理一资料物件集合以在资讯撷取与资料探勘操作中使用的方法,包含以下步骤:在该集合之各资料物件中产生各项之一频率计数;使用该资料物件项资讯将该资料物件集合分割成复数个子集合,其中各子集合系根据该内部资料物件的概念相依性;产生各子集合之一资料物件项矩阵;将该资料物件项矩阵分解成一缩减之奇异値表示法;决定各子集合之质心向量;寻找最接近质心向量之各子集合中一预定数量的项;及发展一相似性图形网路以建立子集合之间的相似性。2.如申请专利范围第1项之方法,进一步包含以下步骤:在产生各资料物件之项频率计数前预先处理该文件,以移除一预先选择的停止字集。3.如申请专利范围第2项之方法,其中预先处理之步骤进一步包含将不同的项缩减为一正准形式。4.如申请专利范围第1项之方法,其中分割该集合之步骤系使用一平分k-平均値丛集演算法来执行。5.如申请专利范围第1项之方法,其中分割该集合之步骤系使用一k-平均値丛集演算法来执行。6.如申请专利范围第1项之方法,其中分割该集合之步骤系使用阶层式丛集演算法来执行。7.如申请专利范围第1项之方法,其中该预定之项数量为10。8.如申请专利范围第1项之方法,其中决定各子集合之质心向量之步骤系在该子集合之资料物件项矩阵之缩减的奇异値表示法上使用一丛集演算法。9.如申请专利范围第1项之方法,其中决定各子集合之质心向量之步骤系根据该分割步骤之结果。10.如申请专利范围第1项之方法,其中各子集合之资料物件项之缩减的奇异値表示法具有约200个正交维度。11如申请专利范围第1项之方法,其中建立子集合之间相似性之步骤系根据子集合之间共同项出现的频率。12.如申请专利范围第1项之方法,其中发展该相似性图形网路之步骤系根据各该子集合中共同项之间的语意关系。13.如申请专利范围第1项之方法,其中发展该相似性图形网路之步骤系根据子集合间共同项之出现频率与各该子集合中共同项间之语意关系的乘积。14.如申请专利范围第11项之方法,其中发展该相似性图形网路之步骤进一步包含以下步骤:决定不具有共同项之一第一子集合与一第二子集合是否均具有和一或多个链接之子集合共同的项;及选择具有最强链接之该链接的子集合。15.如申请专利范围第12项之方法,其中发展该相似性图形网路之步骤进一步包含以下步骤:决定一第一子集合与一第二子集合之间的相关性;置换该第一子集合与该第二子集合;计算各置换之Mantel检定统计量;计算Mantel检定统计量大于或等于该第一子集合与该第二子集合间相关性的次数;从该计算决定该p-値;计算等级零之一邻近空间的测量;计算该第一等级邻近空间的测量;及决定该语意关系基础相似性测量s2,其中:s2=(spij+P)-1。16.一种用于回应一使用者之一使用者查询之资讯撷取的方法,包含以下步骤:根据资料-物件之概念相依性将资料-物件之一集合分割成复数个子集合,其中此种子集合之间的关系系以一相似性图形网路表示;根据该使用者查询产生一查询向量;使用该相似性图形网路来识别可能回应该使用者查询的所有子集合;及识别在各已识别的子集合中与查询向量类似的资料物件。17.如申请专利范围第16项之方法,其中分割该资料物件集合之步骤进一步包含以下步骤:在该集合之各资料物件中产生各项之一频率计数;使用该资料物件项资讯将该资料物件集合分割成复数个子集合;产生各子集合之一资料物件项矩阵;将该资料物件项矩阵分解成一缩减之奇异値表示法;决定各子集合之质心向量;寻找最接近质心向量之各子集合中一预定数量的项;及发展一相似性图形网路以建立子集合之间的相似性。18.如申请专利范围第17项之方法,其中决定该质心向量之步骤系在该子集合之资料物件项矩阵之缩减的奇异値表示法上使用一丛集演算法。19.如申请专利范围第17项之方法,其中决定各子集合之质心向量之步骤系根据该分割步骤之结果。20.如申请专利范围第17项之方法,其中发展该相似性图形网路之步骤进一步包含以下步骤:决定不具有共同项之一第一子集合与一第二子集合是否均具有和一或多个链接之子集合共同的项;及选择具有最强链接之该链接的子集合。21.如申请专利范围第17项之方法,其中发展该相似性图形网路之步骤进一步包含以下步骤:决定一第一子集合与一第二子集合之间的相关性;置换该第一子集合与该第二子集合;计算各置换之Mantel检定统计量;计算Mantel检定统计量大于或等于该第一子集合与该第二子集合间相关性的次数;从该计算决定该p-値;计算等级零之一邻近空间的测量;计算该第一等级邻近空间的测量;及决定该语意关系基础相似性测量s2,其中:s2=(spij+P)-1。22.如申请专利范围第17项之方法,进一步包含以下步骤:在产生各资料物件之项频率计数前预先处理该文件,以移除一预先选择的停止字集。23.如申请专利范围第16项之方法,其中分割该集合之步骤系使用一平分k-平均値丛集演算法来执行。24.如申请专利范围第16项之方法,该方法进一步包含下列步骤:根据各子集合含有回应该使用者查询之资料物件的可能性来排阶该已识别的子集合;选择要查询的该已排阶子集合;将该已排阶的子集合呈现给该使用者;及输入使用者对要查询之该已排阶的子集合之选择。25.如申请专利范围第16项之方法,其中根据该使用者查询产生一查询向量之步骤进一步包含:藉由计算与另一个实际含有该查询项之概念领域相似之一或多个概念领域中其投射的项向量之加权和来扩展该使用者查询。26.如申请专利范围第16项之方法,进一步包含以下步骤:将由概念领域所排阶之该已识别的资料物件呈现给该使用者。27.一种从回应一使用者查询之资料物件集合撷取资讯的系统,包含:输入构件,其用于输入一使用者查询;一或多个资料伺服器,其用于储存该资料物件集合及用于根据该内部资料物件的概念相依性将该资料物件集合分割成复数个子集合;与各资料伺服器通讯之一LSI处理器集线器,其用于:(i)根据该等复数个已分割的子集合的相似性来发展一相似性图形网路;(ii)根据该使用者查询来产生一查询向量;(iii)根据该相似性图形网路来识别可能回应该使用者查询的子集合;及(iv)协调在各选定的子集合中与查询向量类似的资料物件的识别。28.如申请专利范围第27项之系统,进一步包含一用于将该等已识别的资料物件呈现给该使用者之构件。29.一种用于处理一资料物件集合以在资讯撷取与资料探勘操作中使用的系统,包含:用于在该集合之各资料物件中产生各项之一频率计数之构件;用于使用该资料物件项资讯将该资料物件集合分割成复数个子集合之构件;用于产生各子集合之一资料物件项矩阵之构件;用于将该资料物件项矩阵分解成一缩减之奇异値表示法之构件;用于决定各子集合之质心向量之构件;用于寻找最接近质心向量之各子集合中一预定数量的项之构件;及用于发展一相似性图形网路以建立子集合之间的相似性之构件。图式简单说明:图1根据本发明显示用于处理文件集合之方法的流程图;图2a与图2b根据本发明显示用于处理文件集合之方法的流程图,尤其显示在子集合的相似性上之资料产生的流程图;图3显示用于查询根据本发明方法所处理之文件集合之方法的流程图;及图4根据本发明显示分布式LSI系统之一项具体实施例的示意图。
地址 美国
您可能感兴趣的专利