发明名称 为搜索词分配指标权重
摘要 公开了为文档(300)中潜在的搜索词分配(206)指标权重(320),所述指标权重(320)基于词的文本和声学两个方面。在一个实施例中,传统的基于文本的权重(302,304)被分配(200)给潜在的搜索词。这个权重(302,304)可以是TF-IDF(“词频率-逆向文档频率”)、TF-DV(“词频率辨别值”)、或者任何其他基于文本的权重(302,304)。然后,对于同一词计算(202)发音重音权重(318)。该基于文本的权重(302,304)和该发音重音权重(318)被算术组合(204)成该词的最终指标权重(320)。当输入基于语音的搜索字符串时,该组合的指标权重(320)用于(206)确定每篇文档(300)中的每个搜索词的重要性。预计计算发音重音(318)的若干可能性。在一些实施例中,对于文档(300)中的词的对,基于音位间距离计算词间发音距离(306)。
申请公布号 CN102246169A 申请公布日期 2011.11.16
申请号 CN200980150289.2 申请日期 2009.12.14
申请人 摩托罗拉移动公司 发明人 刘宸
分类号 G06F17/30(2006.01)I;G06F17/00(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中原信达知识产权代理有限责任公司 11219 代理人 刘光明;穆德骏
主权项 一种用于为文档(300)中搜索词分配指标权重(320)的方法,所述文档(300)在文档(300)集合中,该方法包括:计算(200)文档(300)中搜索词的基于文本的指标权重(302,304)计算(202)搜索词的发音重音(318);以及将指标权重(320)分配给文档(300)中的搜索词,所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。
地址 美国伊利诺伊州