发明名称 以序列为基础之文件索引与检索方法
摘要 本发明揭示一种用于一文件库之序列索引与检索方法,其包括以下步骤:自一查询产生一查询标记序列;自包含该查询标记序列之至少一标记的该等文件之每一个文件中产生至少一代表标记序列;估计该等代表标记序列之每一个与该查询标记序列之间之一相似性;及根据该代表标记序列相对于该查询标记序列之相似性,也就是依据其一标记出现次数得分、一标记顺序性得分及一标记连结性得分之等级顺序性(rankingorder)进行该等文件之检索,从而正确有效地检索该文件。
申请公布号 TWI266213 申请公布日期 2006.11.11
申请号 TW093107255 申请日期 2004.03.18
申请人 国立台湾大学 发明人 蔡益坤;游景麟;陈郁方
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人 许俊仁 台北市中山区长安东路1段25号3楼303室;周俊智 台北市中山区长安东路1段25号3楼303室
主权项 1.一种以序列为基础之文件索引与检索方法,其包含以下步骤:(a)自使用者所提交之一查询产生具有至少一查询标记之一查询标记序列;(b)自包含该查询标记序列之至少一标记之该等文件之每一个中产生具有至少一文件标记之至少一代表标记序列;(c)估计该等代表标记序列之每一个与该查询标记序列之间之一相似性,其藉由以下步骤:(c.1)藉由测量该代表标记序列相对于该查询标记序列之一标记出现次数来决定一标记出现次数得分;(c.2)藉由估计该代表标记序列相对于该查询标记序列之一标记顺序性来决定一标记顺序性得分;(c.3)藉由估计该代表标记序列相对于该查询标记序列之一标记连结性来决定一标记连结性得分;及(d)根据该代表标记序列相对于该查询标记序列之该相似性,依据该标记出现次数得分、该标记顺序性得分及该标记连结性得分之等级顺序性进行该等文件之检索,当一文件具有两个以上代表标记序列,则其相似性系由具有一较高得分之该代表标记序列决定。2.如申请专利范围第1项之方法,其中该步骤(c.1)包含以下子步骤:(c.1.1)查阅该等文件之一索引以决定该查询标记序列中每一标记之权重;(c.1.2)估计于该代表标记序列中所出现之该等查询标记之权重和;及(c.1.3)藉由计算该权重和除以所有查询标记之总权重所得之一分数来输出该标记出现次数之该标记出现次数得分。3.如申请专利范围第2项之方法,其中该查询标记在该查询标记序列中之该权重系藉由决定该查询标记在该等文件中之一标记频率而得以测量。4.如申请专利范围第1项之方法,其中该步骤(c.2)包含以下子步骤:(c.2.1)决定该代表标记序列与该查询标记序列之最长共同子序列之一长度;(c.2.2)决定该代表标记序列之一长度;(c.2.3)决定该查询标记序列之一长度;及(c.2.4)藉由计算该最长共同子序列之该长度除以该代表标记序列之该长度与该查询标记序列之该长度之一平均和所得之一分数来输出该标记顺序性之该标记顺序性得分。5.如申请专利范围第3项之方法,其中该步骤(c.2)包含以下子步骤:(c.2.1)决定该代表标记序列与该查询标记序列之最长共同子序列之一长度;(c.2.2)决定该代表标记序列之一长度;(c.2.3)决定该查询标记序列之一长度;及(c.2.4)藉由计算该最长共同子序列之该长度除以该代表标记序列之该长度与该查询标记序列之该长度之一平均和所得之一分数来输出该标记顺序性之该标记顺序性得分。6.如申请专利范围第1项之方法,其中该步骤(c.3)包含以下子步骤:(c.3.1)决定该查询标记序列中每一邻近文件标记之一位置差与该邻近文件标记之一位置差之间之一相对距离;及(c.3.2)藉由计算该等相对距离之一倒数和除以邻近标记对之数目所得之一分数,该邻近标记对之数目等于该代表标记序列之长度减一来输出关于该标记连结性之该标记连结性得分。7.如申请专利范围第3项之方法,其中该步骤(c.3)包含以下子步骤:(c.3.1)决定该查询标记序列中每一邻近文件标记之一位置差与该邻近文件标记之一位置差之间之一相对距离;及(c.3.2)藉由计算该等相对距离之一倒数和除以邻近标记对之数目所得之一分数,该邻近标记对之数目等于该代表标记序列之长度减一来输出关于该标记连结性之该标记连结性得分。8.如申请专利范围第5项之方法,其中该步骤(c.3)包含以下子步骤:(c.3.1)决定该查询标记序列中每一邻近文件标记之一位置差与该邻近文件标记之一位置差之间之一相对距离;及(c.3.2)藉由计算关于该代表标记序列之该等相对距离之一倒数和来输出关于该标记连结性之该标记连结性得分。9.如申请专利范围第8项之方法,其中该代表标记序列相对于该查询标记序列之该相似性系藉由对该标记出现次数得分、该标记顺序性得分与该标记连结性得分求和而得以计算,其中该等文件之该等级顺序性系由该等文件之该等代表标记序列之每一个之该标记出现次数得分、该标记顺序性得分与该标记连结性得分之一加权之和决定。10.如申请专利范围第1项之方法,在步骤(b)中进一步包含自该等文件中选择至少一候选文件之一步骤,其中当该等文件包含该查询标记序列之至少一标记时,选择该等文件之一作为该候选文件。11.如申请专利范围第9项之方法,在步骤(b)中进一步包含自该等文件中选择至少一候选文件之一步骤,其中当该等文件包含该查询标记序列之至少一标记时,选择该等文件之一作为该候选文件。12.如申请专利范围第10项之方法,在步骤(b)中进一步包含查阅该等文件之一索引以建立该候选文件之一步骤,其中亦出现于该查询标记序列中之标记得以收集以为每一文件形成一文件标记序列且选择该文件标记序列之两个最长区段作为代表标记序列,其中每一邻近文件标记之该位置差系不大于一预定定位値,同时选择该对应的文件作为该候选文件。13.如申请专利范围第11项之方法,在步骤(b)中进一步包含查阅该等文件之一索引以建立该候选文件之一步骤,其中亦出现于该查询标记序列中之标记得以收集以为每一文件形成一文件标记序列且选择该文件标记序列之两个最长区段作为代表标记序列,其中每一邻近文件标记之该位置差系不大于一预定定位値,同时选择该对应的文件作为该候选文件。14.如申请专利范围第10项之方法,在步骤(b)中进一步包含保留该候选文件以用于测量相对于该查询标记序列之该相似性之一步骤,其中当该候选文件包含一具有不小于查询标记之该总权重之一预定分数之一权重之标记时,保留该候选文件。15.如申请专利范围第11项之方法,在步骤(b)中进一步包含保留该候选文件以用于测量相对于该查询标记序列之该相似性之一步骤,其中当该候选文件包含一具有不小于查询标记之该总权重之一预定分数之一权重之标记时,保留该候选文件。16.如申请专利范围第13项之方法,在步骤(b)中进一步包含保留该候选文件以用于测量相对于该查询标记序列之该相似性之一步骤,其中当该候选文件包含一具有不小于查询标记之该总权重之一预定分数之一权重之标记时,保留该候选文件。17.如申请专利范围第1项之方法,其中该文件包含中文字元、英文字、数字、标点及符号作为该等文件标记。18.如申请专利范围第9项之方法,其中该文件包含中文字元、英文字、数字、标点及符号作为该等文件标记。19.如申请专利范围第13项之方法,其中该文件包含中文字元、英文字、数字、标点及符号作为该等文件标记。20.如申请专利范围第16项之方法,其中该文件包含中文字元、英文字、数字、标点及符号作为该等文件标记。图式简单说明:第1图系说明依据本发明之较佳具体实施例之文件集之序列索引与检索方法流程图。
地址 台北市大安区罗斯福路4段1号