发明名称 |
一种语言模型的训练方法、查询方法和对应装置 |
摘要 |
本发明提供了一种语言模型的训练方法、查询方法和对应装置,其中训练方法包括:对训练语料进行分块得到N组训练语料,N为大于1的正整数;对分块得到的N组训练语料并行执行:进行递归的后缀树排序,分别得到反映各词语在各句子中倒序位置状况的排序结果,基于排序结果,将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树,n为预设的一个或多个大于1的正整数;对得到的相同根节点的词序树进行合并和词序转换后,得到存放前向概率信息的Trie树,该Trie树中从根到叶的词序顺序为:句子中倒数第二个词、最后一个词、其他词语按照倒序排列。通过本发明能够实现语言模型的快速更新。 |
申请公布号 |
CN103871404A |
申请公布日期 |
2014.06.18 |
申请号 |
CN201210539598.2 |
申请日期 |
2012.12.13 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
贾磊;万广鲁 |
分类号 |
G10L15/06(2013.01)I |
主分类号 |
G10L15/06(2013.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种语言模型的训练方法,其特征在于,该训练方法包括:S1、对训练语料进行分块得到N组训练语料,N为大于1的正整数;S2、对分块得到的N组训练语料并行执行步骤S21和步骤S22;S21、进行递归的后缀树排序,分别得到反映各词语在各句子中倒序位置状况的排序结果;S22、基于步骤S21的排序结果,将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树,n为预设的一个或多个大于1的正整数;S3、对得到的相同根节点的词序树进行合并和词序转换后,得到存放前向概率信息的Trie树,该Trie树中从根到叶的词序顺序为:句子中倒数第二个词、最后一个词、其他词语按照倒序排列。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |