发明名称 |
为搜索词分配指标权重 |
摘要 |
公开了为文档(300)中潜在的搜索词分配(206)指标权重(320),所述指标权重(320)基于词的文本和声学两个方面。在一个实施例中,传统的基于文本的权重(302,304)被分配(200)给潜在的搜索词。这个权重(302,304)可以是TF-IDF(“词频率-逆向文档频率”)、TF-DV(“词频率辨别值”)、或者任何其他基于文本的权重(302,304)。然后,对于同一词计算(202)发音重音权重(318)。该基于文本的权重(302,304)和该发音重音权重(318)被算术组合(204)成该词的最终指标权重(320)。当输入基于语音的搜索字符串时,该组合的指标权重(320)用于(206)确定每篇文档(300)中的每个搜索词的重要性。预计计算发音重音(318)的若干可能性。在一些实施例中,对于文档(300)中的词的对,基于音位间距离计算词间发音距离(306)。 |
申请公布号 |
CN102246169A |
申请公布日期 |
2011.11.16 |
申请号 |
CN200980150289.2 |
申请日期 |
2009.12.14 |
申请人 |
摩托罗拉移动公司 |
发明人 |
刘宸 |
分类号 |
G06F17/30(2006.01)I;G06F17/00(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
中原信达知识产权代理有限责任公司 11219 |
代理人 |
刘光明;穆德骏 |
主权项 |
一种用于为文档(300)中搜索词分配指标权重(320)的方法,所述文档(300)在文档(300)集合中,该方法包括:计算(200)文档(300)中搜索词的基于文本的指标权重(302,304)计算(202)搜索词的发音重音(318);以及将指标权重(320)分配给文档(300)中的搜索词,所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。 |
地址 |
美国伊利诺伊州 |