发明名称 文本检索装置及方法
摘要 本发明提供了一种文本检索装置和方法,其对传统的检索手段进行改良,引入自然语言深层的语义信息进行信息比较及检索。本发明采用将语义信息同向量空间模型相结合的方法,通过赋予语义信息附加的权重来改进向量空间模型的向量特征值,以提高向量特征值同文本语义之间的相关度,实现高精度的信息比较及检索。由于采用向量特征值之间的相似度(距离)来衡量文本之间的相似度,所以其比较及检索速度等同于向量空间模型。
申请公布号 CN100535895C 申请公布日期 2009.09.02
申请号 CN200410057211.5 申请日期 2004.08.23
申请人 富士施乐株式会社 发明人 王洪涛;孙茂松;刘绍明
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京三友知识产权代理有限公司 代理人 李 辉
主权项 1.一种检索文本信息的方法,包括以下步骤:对查询文本和目标文本进行语义分析,确定文本中各个单词对语义的重要程度;利用向量空间模型的方法,根据上述语义分析的结果确定查询文本和目标文本的特征向量;计算所述查询文本和目标文本的特征向量之间的相似度;以及基于上述相似度的计算结果来确定检索结果;其中所述的语义分析是基于格语法进行的;所述的语义分析的步骤包括:根据语义格的重要程度分配不同的语义权重,并且所述确定特征向量的步骤包括:通过所述的语义权重对所述特征向量进行修正。
地址 日本东京