摘要 |
本发明揭示一种调适以在大型异质资料集上运作之资讯撷取及本文探勘操作之隐含语意索引(latent semanticindexing;LSI)的使用,其系藉由首先将资料集分割成数个具有相似概念领域之较小分区。为了显示概念领域之间的链接,会产生一相似性图形网路,然后再用来决定要查询的领域及扩展查询向量。LSI最有可能在这些分割的资料集上执行,以容纳有关使用者查询或本文探勘操作之资讯。依此方式,即可在至此出现尺度性问题之资料集之中套用LSI。此外,还可以在不同的分布式电脑上完成文件项矩阵之奇异值分解的计算,既能增加该撷取及本文探勘系统的强韧性,又能减少搜寻时间。 |