发明名称 以语音为基础的中文资讯检索方法
摘要 随着文字、声音以及多媒体资讯在网际网路上迅速累积并广泛地被使用,发展以文字或语音型式的查询指令(text or speech queries)去检索文字或语音型式的资讯(text or speech information)的技术说显得愈来愈为重要。以语音为基础之资讯检索(speech-based information retrieval)指的是使用者的查询指令以及被检索的资讯两者其中至少之一是语音型式。在本发明中,考虑中文的单音节结构(monosyllabic structure)特性,发展出来一系列以音节(syllable)为基础的索引特征(indexing terms),包括了重叠音节片段(overlapping syllable segments)及可间隔若干音节之双音节(syllable pairs separated by a few syllables),同时也验证了这一系列以音节为基础的索引特征的确具有极强的监别能力。此外,在本发明里也发展出进一步融合以中文的字与词为基础的索引特征的方法,以及若干特别的处理方法,来增强上述这些音节索引特征的检索监别能力。
申请公布号 TWI270792 申请公布日期 2007.01.11
申请号 TW092107121 申请日期 2003.03.28
申请人 李琳山 发明人 李琳山;简立峰;陈柏琳;王新民
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人 陈长文 台北市松山区敦化北路201号7楼
主权项 1.一种中文资讯检索方法,包含: 输入描述所欲查询资讯之语音或文字查询指令; 决定一种索引特征;及 利用该索引特征检索所欲查询之以语音或文字型 式呈现之资讯记录, 其中该索引特征系为具有一特定长度的重叠音节 片段,且该特定长度可任意指定且至少为一。 2.如申请专利范围第1项之中文资讯检索方法,其中 该特定长度系为二。 3.如申请专利范围第1项之中文资讯检索方法,其中 该特定长度系为三。 4.一种以语音为基础的中文资讯检索方法,包含: 输入描述所欲查询资讯之语音或文字查询指令; 决定一种索引特征;及 利用该索引特征检索所欲查询之以语音或文字型 式呈现之资讯记录, 其中该索引特征系为一间隔至少一音节之双音节 。 5.如申请专利范围第1项之中文资讯检索方法,其中 该索引特征亦可为具有一特定长度的重叠字片段, 且该特定长度可任意指定且至少为一。 6.如申请专利范围第1项之中文资讯检索方法,其中 该索引特征亦可为具有一特定长度的重叠词片段, 且该特定长度可任意指定且至少为一。 7.如申请专利范围第4项之中文资讯检索方法,其中 该索引特征亦可为一间隔若干字之双字。 8.如申请专利范围第4项之中文资讯检索方法,其中 该索引特征亦可为一间隔若干词之双词。 9.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,其中该索引特征可经选定为不只一种 。 10.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,其中该索引特征可由重叠音节片段、 双音节、重叠字片段、重叠词片段、双字及双词 所组成之群组中选定一或多种。 11.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,其中该索引特征决定后,该中文资讯 检索方法另包含: 辨识语音查询指令中每一音节、字或词之语音段 落产生一个或一个以上候选音节、字或词,以建立 对应之音节、字或词格状组;及 辨识语音资讯记录中每一音节、字或词之语音段 落产生一个或一个以上候选音节、字或词,以产生 对应之音节、字或词格状组;其中该音节、字或词 格状组中之各候选音节、字或词包含有经语音辨 识产生之一声学辨识分数。 12.如申请专利范围第11项之中文资讯检索方法,其 中该索引特征另包含有一分数,且该分数系由该索 引特征所包含之所有候选音节、字或词之声学辨 识分数平均而得。 13.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,其中以语音为基础之中文资讯检索系 包含有以语音型式的查询指令检索文字形式的资 讯记录、以文字型式的查询指令检索语音形式的 资讯记录、及以语音形式的查询指令检索语音形 式的资讯记录。 14.如申请专利范围第13项之中文资讯检索方法,其 中查询指令或资讯记录凡以文字型式呈现者,其索 引特征的分数系为该索引特征在该文字形式的查 询指令或资讯记录中出现的次数。 15.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,另包含为每一查询指令及每一资讯记 录设计一组特征向量,其中每一特征向量包含有若 干个向量分量,每一向量分量系用以代表前述中文 资讯检索中每一索引特征在查询指令与资讯记录 中由声学辨识分数求得的分数(若为语音型式呈现 )或出现的次数(若为文字型式呈现)。 16.如申请专利范围第15项之中文资讯检索方法,其 中该查询指令与每一资讯记录之关连性系由代表 该查询指令与代表每一资讯记录之各特征向量之 个别比对结果的加权和决定。 17.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,另包含有产生一组由资料库导引之索 引特征,该组索引特征可由长度为1的音节、字或 词片段开始,以由下往上的方式,将相邻的音节、 字或词片段两两相连以形成另一长度较长的音节 、字或词片段,并以该长度较长之音节、字或词片 段在一资料库中之一统计数値,来决定是否应将该 两音节、字或词片段加以结合以形成新的索引特 征。 18.如申请专利范围第17项之中文资讯检索方法,其 中该另一长度较长的音节、字或词片段之长度为2 。 19.如申请专利范围第17项之中文资讯检索方法,其 中该另一长度较长的音节、字或词之长度为3。 20.如申请专利范围第17项之中文资讯检索方法,其 中该统计数値可为该可以相连形成另一长度较长 的音节、字或词片段的两个较小音节、字或词片 段彼此间的相互讯息量。 21.如申请专利范围第17项之中文资讯检索方法,其 中该统计数値可为该可以相连形成另一长度较长 的音节、字或词片段的两个较小音节、字或词片 段彼此间的语言模型参数。 22.如申请专利范围第17项之中文资讯检索方法,其 中该产生由资料库导引之索引特征之步骤中,决定 是否结合两个相连的较小音节、字或词片段以形 成另一长度较长的音节、字或词片段以作为新的 索引特征时,系对不同长度的音节、字或词片段索 引特征给予不同的阀値,当该统计数値大于该阀値 时,便将该两较小音节、字或词片段结合以形成新 的索引特征。 23.如申请专利范围第22项之中文资讯检索方法,其 中该产生由资料库导引之索引特征之步骤可反覆 执行,直到没有任何相连的音节、字或词片段的统 计数値超过该阀値为止。 24.如申请专利范围第11项之中文资讯检索方法,其 中各候选音节、字或词之声学辨识分数若低于一 预先设定的値时,该候选音节、字或词便会被删除 。 25.如申请专利范围第12项之中文资讯检索方法,其 中该索引特征在一资料库中出现之次数若低于一 预先设定的値时,该索引特征便会被删除。 26.如申请专利范围第25项之中文资讯检索方法,其 中该预先设定的値可于决定该索引特征时便加以 设定,且不同的索引特征可设定不同的値。 27.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,另包含有根据各索引特征之文件倒数 频率建立一极高频索引特征列表。 28.如申请专利范围第27项之中文资讯检索方法,另 包含有从特征向量中删除出现在该极高频索引特 征列表中的前若干个最常出现的索引特征。 29.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,另包含有为该组索引特征建立一索引 特征关连矩阵,该矩阵包含若干个矩阵元素,每一 矩阵元素代表任两个索引特征同时出现在相同的 资讯记录中的频率统计特性。 30.如申请专利范围第29项之中文资讯检索方法,其 中该元素可为介于0与1之间之任何数値。 31.如申请专利范围第30项之中文资讯检索方法,其 中该元素为0可代表两个索引特征从未同时出现在 相同的资讯记录中或无关连性。 32.如申请专利范围第30项之中文资讯检索方法,其 中该元素为1可代表两个索引特征总是同时出现在 相同资讯记录中或有非常高的关连性。 33.如申请专利范围第32项之中文资讯检索方法,另 包含将最具有关连性的若干个索引特征加入查询 指令的特征向量中,以形成另一新的查询指令特征 向量。 34.如申请专利范围第1、4、5、6、7或8项之中文资 讯检索方法,另包含有于利用该索引特征检索欲查 询之以语音或文字型式呈现之资讯记录之步骤后, 进行一第二次检索。 35.如申请专利范围第34项之中文资讯检索方法,其 中该第二次检索可由增加索引特征或删除索引特 征,以产生另一新的查询指令特征向量加以执行。 36.如申请专利范围第35项之中文资讯检索方法,其 中该索引特征之增加或删除可由该索引特征常出 现于之前检索所获得之相关资讯记录或不相关资 讯记录中加以判断。 37.如申请专利范围第36项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之相关 资讯记录中,则增加该索引特征或其分数。 38.如申请专利范围第36项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之不相 关资讯记录中,则删除该索引特征或降低其分数。 39.如申请专利范围第11项之中文资讯检索方法,另 包含有于利用该索引特征检索欲查询之以语音或 文字型式呈现之资讯记录之步骤后,进行一第二次 检索。 40.如申请专利范围第39项之中文资讯检索方法,其 中该第二次检索可由增加索引特征或删除索引特 征,以产生另一新的查询指令特征向量加以执行。 41.如申请专利范围第40项之中文资讯检索方法,其 中该索引特征之增加或删除可由该索引特征常出 现于之前检索所获得之相关资讯记录或不相关资 讯记录中加以判断。 42.如申请专利范围第41项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之相关 资讯记录中,则增加该索引特征或其分数。 43.如申请专利范围第41项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之不相 关资讯记录中,则删除该索引特征或降低其分数。 44.如申请专利范围第15项之中文资讯检索方法,另 包含有于利用该索引特征检索欲查询之以语音或 文字型式呈现之资讯记录之步骤后,进行一第二次 检索。 45.如申请专利范围第44项之中文资讯检索方法,其 中该第二次检索可由增加索引特征或删除索引特 征,以产生另一新的查询指令特征向量加以执行。 46.如申请专利范围第45项之中文资讯检索方法,其 中该索引特征之增加或删除可由该索引特征常出 现于之前检索所获得之相关资讯记录或不相关资 讯记录中加以判断。 47.如申请专利范围第46项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之相关 资讯记录中,则增加该索引特征或其分数。 48.如申请专利范围第46项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之不相 关资讯记录中,则删除该索引特征或降低其分数。 49.如申请专利范围第12项之中文资讯检索方法,另 包含有于利用该索引特征检索欲查询之语音或文 字型式呈现之资讯记录之步骤后,进行一第二次检 索。 50.如申请专利范围第49项之中文资讯检索方法,其 中该第二次检索可由增加索引特征或删除索引特 征,以产生另一新的查询指令特征向量加以执行。 51.如申请专利范围第50项之中文资讯检索方法,其 中该索引特征之增加或删除可由该索引特征常出 现于之前检索所获得之相关资讯记录或不相关资 讯记录中加以判断。 52.如申请专利范围第51项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之相关 资讯记录中,则增加该索引特征或其分数。 53.如申请专利范围第52项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之不相 关资讯记录中,则删除该索引特征或降低其分数。 54.如申请专利范围第14项之中文资讯检索方法,另 包含有于利用该索引特征检索欲查询之语音或文 字型式呈现之资讯记录之步骤后,进行一第二次检 索。 55.如申请专利范围第54项之中文资讯检索方法,其 中该第二次检索可由增加索引特征或删除索引特 征,以产生另一新的查询指令特征向量加以执行。 56.如申请专利范围第55项之中文资讯检索方法,其 中该索引特征之增加或删除可由该索引特征常出 现于之前检索所获得之相关资讯记录或不相关资 讯记录中加以判断。 57.如申请专利范围第56项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之相关 资讯记录中,则增加该索引特征或其分数。 58.如申请专利范围第57项之中文资讯检索方法,其 中若该索引特征常出现于之前检索所获得之不相 关资讯记录中,则删除该索引特征或降低其分数。 图式简单说明: 图1为以音节序列S1 S2 S3.....S10为例的各种音节层 次的索引特征示意图。 图2为本发明一实施例之流程图。
地址 台北市大安区温州街58巷7号3楼