发明名称 应用于特征向量之多段式索引方法
摘要 本发明系利用特征向量,建立新的多段式向量排列及计算方式,以提高文件搜寻的准确性。本发明系在文件的索引上,依照多段式向量排列及计算方式,建立一索引向量。并将文件的搜寻字串,依照多段式向量排列及计算方式,建立为一搜寻向量。比对该索引向量及搜寻向量,便可依其相似的程度,查出可能的文件资料。本发明之多段式向量排列及计算方式系在一向量上,规划为单字区,双字区及双字词区,每区中各有三个具有不同元素数目的子区段。计算时,将字串依照单字,双字及双字词的顺序排列后,再分别以其代码与各子区段的数目作除数运算。所得之余数即为该文字其在该索引向量中的顺序。
申请公布号 TW377417 申请公布日期 1999.12.21
申请号 TW087107699 申请日期 1998.05.19
申请人 财团法人资讯工业策进会 发明人 姚骐
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 蔡坤财 台北巿松江路一四八号十二楼
主权项 1.一种应用于特征向量之多段式索引及搜寻方法,包含步骤:设定多段式的向量排列方式,系在一向量中设定单字,双字,及双字词的区域,及该单字,双字,及双字词的区域中各具有复数个不等长之子区段;依据该多段式索引的向量格式,建立索引向量;依据该多段式索引的向量格式,建立搜寻向量;比较该索引向量及该搜寻向量;及依据该比较结果,存取被索引的文件。2.如申请专利范围第1项所述之方法,其中上述之建立索引向量的步骤包含:建立文件的索引文字;依据该文字的词性而分为单字,双字,及双字词;依据该文字的词性,找出对应的固定代码;依据该文字的固定代码,及该文字所属的子区段的元素数目,执行除数运算;以该除数运算所得之余数,作为该文字在所属之子区段中排列顺序;及在该顺序中填入二进位码的〝1〞。3.如申请专利范围第1项所述之方法,其中上述之建立搜寻向量的步骤包含:读取所欲搜寻之字串;依据一事先设定之顺序重新排列该所欲搜寻的字串;依据该重新排列之搜寻字串,读取该单字,双字,及双字词的固定代码;依据该单字,双字,及双字词的固定代码,及其所属之子区段的元素数目,执行除数运算;以该除法运算的余数,作为该单字,双字,及双字词在其所属之子区段的排列顺序;及在该顺序中填入二进位码的〝1〞。4.如申请专利范围第1项所述之方法,更包含:设定单字,双字及双字词的固定代码;及储存该中文单字,双字,及只字词的固定代码。5.如申请专利范围第2项所述之方法,更包含:储存上述之文件的索引。6.如申请专利范围第1项所述之方法,其中上述之子区段的段数为三。7.如申请专利范围第2项所述之方法,其中上述之固定代码为数字。8.如申请专利范围第2项所述之方法,其中上述之除数运算所得之余数为取其整数。9.如申请专利范围第3项所述之方法,其中上述之除数运算所得之余数为取其整数。图式简单说明:第一图为本发明对于欲查询之字串的处理方法示意图。第二图为本发明之索引向量的流程图。第三图为本发明之搜寻向量的流程图。第四图为本发明对于不同分段数之测试统计图表。
地址 台北巿和平东路二段一○六号十一楼