发明名称 类似字摘取及文件检索方法与系统
摘要 所设系一些可自彼等文件之文件资料库摘取一所定字母序列之类似字,被等类似字之发生样式,系与上述所定序列者相类似,一包含上述文件资料库内之每一字有关之一第一特征向量的一个特征向量表将会被制备。上述所定序列上面之统计资讯,将可经由检索上述相对于所定序列之文件资料库而取得。自上述之统计资讯,将可计算出一相对于上述所定序列之一第二特征向量。上述之第二特征向量与上述之每一第一特征向量间的类似程度将可被计算出。彼等所产生之类似程度高于一预定值之字将会被选定。
申请公布号 TW476034 申请公布日期 2002.02.11
申请号 TW089115283 申请日期 2000.07.29
申请人 松下电器产业股份有限公司 发明人 佐藤光弘;伊藤快
分类号 G06F17/28 主分类号 G06F17/28
代理机构 代理人 恽轶群 台北巿南京东路三段二四八号七楼;陈文郎 台北巿南京东路三段二四八号七楼
主权项 1.一种可自一些文件之文件资料库摘取一所定讯问之类似字的方法,彼等类似字之发生样式,系与上述所定讯问者相类似,此方法所包括之步骤有:制备一包含上述文件资料库内之每一字有关之一第一特征向量的一个特征向量表;检索上述相对于所定讯问之文件资料库,而取得上述所定讯问上面之统计资讯;自上述之统计资讯,计算一相对于上述所定讯问之一第二特征向量;计算上述之第二特征向量,与上述之每一第一特征向量间的类似程度;以及选择彼等所产生之类似程度高于一预定値之字。2.如申请专利范围第1项所申请之方法,其中制备一特征向量表之步骤系包括:自上述之文件资料库,产生一索引档案,此索引档案系使上述文件资料库内所用每一字有关之统计资讯,可自此索引档案取得;以及自上述之索引档案,计算每一第一特征向量,以及其中取得统计资讯之步骤,系包括搜寻每一所定讯问有关之索引档案。3.一种可自彼等文件之文件资料库摘取一所定字母序列之类似字的方法,彼等类似字之发生样式,系与上述所定序列者相类似,此方法所包括之步骤有:制备一包含上述文件资料库内之每一字有关之第一特征向量的特征向量表;检索上述相对于所定序列之文件资料库,而取得上述所定序列上面之统计资讯;自上述之统计资讯,计算一相对于上述所定序列之第二特征向量;计算上述之第二特征向量,与上述之每一第一特征向量间的类似程度;以及选择彼等所产生之类似程度高于一预定値之字。4.一种在一包含一第一文件资料库和一检索器之文件检索系统中,可扩展一所定讯问以供应一扩展之讯问至上述检索器之方法,此方法所包括之步骤有:自彼等文件之第二文件资料库,摘取上述所定讯问或上述所定讯问内之一讯问字的类似字,彼等类似字之发生样式,系与上述所定讯问或讯问字者相类似;以及利用上述所定讯问有关之所定讯问或讯问字的类似字,其中摘取彼等类似字之步骤所包括之步骤有:制备一包含上述第二文件资料库内之每一字有关之一第一特征向量的特征向量表;检索上述相对于讯问或讯问字之第二文件资料库,而取得上述讯问或讯问字上面之统计资讯;自上述之统计资讯,计算一相对于上述讯问或讯问字之一第二特征向量;计算上述之第二特征向量,与上述之每一第一特征向量间的类似程度;以及选择彼等所产生之类似程度高于一预定値之字,而做为该等类似字。5.如申请专利范围第4项所申请之方法,其中之第一和第二文件资料库系相同之事物。6.一种方法,其可接收一原始语言中之任何所定字母序列,以及可提供一目标语言中之译文,以使一原始语言文件资料库中,上述所定序列之发生样式,系与一目标语言文件资料库中之译文者相同,在此,上两文件资料库中之一为另一之译文,上述方法所包括之步骤有:制备一包含上述目标文件资料库内之每一字有关之第一特征向量的特征向量表;检索上述相对于所定序列之原始语言文件资料库,而取得上述所定序列上面之统计资讯;自上述之统计资讯,计算一相对于上述所定序列之第二特征向量;计算上述之第二特征向量,与上述之每一第一特征向量间的类似程度;以及选择彼等所产生之类似程度高于一预定値之目标语言字,做为彼等之译文。7.如申请专利范围第6项所申请之方法,其中制备一特征向量表之步骤包括:自上述之目标语言文件资料库,产生一索引档案,以使上述目标文件资料库内所用之每一字有关的统计资讯,可自此索引档案取得;以及自上述之索引档案,计算每一第一特征向量,以及其中取得统计资讯之步骤,系包括就上述之所定序列搜寻上述索引档案之步骤。8.一种在一包含一第一文件资料库和一检索器之文件检索系统中,可将一原始语言讯问,转换成一目标语言讯问,而馈送至上述检索器之讯问扩展方法,此方法所包括之步骤有:自彼等目标语言文件之第二文件资料库,摘取上述原始语言讯问中之每一讯问字的译文,被等译文之发生样式,系与每一讯问字者相类似;以及以上述讯问字之译文,取代上述原始语言讯问中之每一讯问字,其中摘取彼等译文之步骤所包括之步骤有:制备一包含上述目标语言文件资料库内之每一字有关之第一特征向量的特征向量表;检索上述相对于讯问字之原始语言文件资料库,而取得上述讯问字上面之统计资讯;自上述之统计资讯,计算一相对于上述讯问字之一第二特征向量;计算上述之第二特征向量,与上述之每一第一特征向量间的类似程度;以及选择彼等所产生之类似程度高于一预定位之目标语言字,做为彼等之译文。9.一种可接收一所定字母序列及可提供一具有充份分割适宜性之二分字母序列的方法,此方法所包括之步骤有:形成一可用以检索彼等包含上述字母序列之所有字母但不包含上述之字母序列本身之文件的检索式;基于上述之检索式来执行一检索,而取得统计资讯;自上述之统计资讯,产生上述检索式有关之特征向量,此特征向量被称做〝遮罩特征向量〞;将上述之字母序列,分割成两子序列,而逐一移位其分割点,以便得到N-1个集合之二分字母序列;在此,N为上述字母序列内之字母的数目;计算上述每一N-1集合之每一二分字母序列有关之一特征向量;以上述之遮罩特征向量,遮罩每一计算出之特征向量,以及使此被遮罩之计得向量规一化;计算上述每一N-1集合有关之类似程度,此类似程度系被界定为上述每一N-1集合之二分字母序列的内积;以及输出彼等类似程度大于一临界値之二分字母序列。10.在一种设有:一转译工具,其可接收一第一语言之所定字,以及可提供一第二语言之译文,而使一第一语言文件资料库内之所定字的发生样式,系与一第二语言文件资料库内之译文者相类似,此处之转译工具,系包含一特征向量表,其系含有上述第二语言文件资料库内之年一字有关之第一特征向量;一可检索上述相对于讯问字之第一语言文件资料库而取得上述讯问字上面之统计资讯的工具;一可自上述之统计资讯,计算一相对于上述讯问字之第二特征向量的工具;一可计算上述之第二特征向量与上述之每一第一特征向量间之类似程度的工具;以及一可选择彼等所产生之类似程度高于一预定値之目标语言字以做为彼等之译文的工具的系统中,一种可找出一所定字有关之至少一包含上述研定字之变体的方法,此方法所包括之步骤有:使用上述之转译工具,取得上述所定字有关之译文;以一含有上述第一语言文件资料库内之每一字有关之一第三特征向量的特征向量表,来取代上述之特征向量表,以及使彼等第一语言文件资料库与第二语言文件资料库互换,而重新配置上述之转译工具;以及使用上述重新配置之转译工具,取得上述每一译文有关之第二译文,而做为上述至少之一变体。11.一种可自彼等文件之文件资料库摘取一所定讯问之类似字的系统,彼等类似字之发生样式,系与上述所定讯问者相类似,此系统系包括:一可制备一包含上述文件资料库内之年一字有关之一第一特征向量的一个特征向量表的工具;一可检索上述相对于所定讯问之文件资料库而取得上述所定讯问上面之统计资讯的工具;一可自上述之统计资讯计算一相对于上述所定讯问之一第二特征向量的工具;一可计算上述之第二特征向量与上述之每一第一特征向量间的类似程度的工具;和一可选择彼等所产生之类似程度高于一预定位之字的工具。12.一种在一包含一第一文件资料库和一检索器之文件检索系统中,可扩展一所定讯问,以供应一扩展之讯问,至上述检索器之系统,此系统系包括:一可自彼等文件之第二文件资料库摘取上述所定讯问或上述所定讯问内之一讯问字之类似字的工具,彼等类似字之发生样式,系与上述所定讯问或讯问字者相类似;以及一可利用上述所定讯问有关之所定讯问或讯问字之类似字的工具,其中摘取彼等类似字的工具系包括:一可制备一包含上述第二文件资料库内之每一字有关之一第一特征向量之特征向量表的工具;一可检索上述相对于讯问或讯问字之第二文件资料库而取得上述讯问或讯问字上面之统计资讯的工具;一可自上述之统计资讯计算一相对于上述讯问或讯问字之一第二特征向量的工具;一可计算上述之第二特征向量与上述之每一第一特征向量间之类似程度的工具;和一可选择彼等所产生之类似程度高于一预定値之字而做为该等类似字的工具。13.如申请专利范围第12项所申请之系统,其中之第一和第二文件资料库系相同之事物。图式简单说明:第1图系一可显示本发明可被实施之文件检索电脑系统之范例性安排的示意方块图;第2图系一可显示一依本发明之类似字摘取器之范例性安排的简图;第3图系一可显示上述在依本发明之类似字摘取器130之控制下,上述处理器20所执行之运作的流程图;第4图系一可显示其特征向量表160之范例性结构的简图;第5图系一可显示一使用第3图之类似字摘取器130之讯问扩展器之运作的流程图;第6图系一可显示一使用于一可做相互参照语言摘取用之讯问扩展器之译文摘取器系统1300a之安排的简图;第7图系一执行时结合上述摘取器130之讯问扩展器程式31b的流程图;第8图系一可显示一依本发明所制字母序列分割器之范例性运作的流程图;第9图系一可显示一可供一字母序列〝自律移动口〞用之摘取式之范例的简图;第10图系一可显示上述字母序列〝自律移动口〞有关之七个集合之分割序列的简图;第11图系一可显示其步骤212之处理范例的简图;第12图系一可显示如何判断每一组分割序列是否具有一充份之分割适宜性的简图;而第13图则系一可显示一依本发明所制变体寻检器300之范例性运作的流程图。
地址 日本
您可能感兴趣的专利