发明名称 |
基于潜在狄利克雷模型的参数推断方法、计算装置及系统 |
摘要 |
本发明实施例提供一种基于潜在狄利克雷模型的参数推断方法、计算装置及系统,涉及信息检索领域,以解决因人工输入的主题个数不准确所导致的LDA模型求解精度差的问题。该方法包括:根据设置的初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主题与词计数矩阵计算LDA模型,得到概率分布;利用期望最大算法得到使概率分布的对数似然函数最大的主题个数、第一超参数和第二超参数;判断主题个数、第一超参数和第二超参数是否收敛,若不收敛,则将主题个数、第一超参数和第二超参数带入LDA模型进行计算,直至得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止。本发明实施例用于文本参数推断。 |
申请公布号 |
CN102439597B |
申请公布日期 |
2014.12.24 |
申请号 |
CN201180001128.4 |
申请日期 |
2011.07.13 |
申请人 |
华为技术有限公司 |
发明人 |
科比洛夫·维拉迪斯拉维;文刘飞;施广宇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中博世达专利商标代理有限公司 11274 |
代理人 |
申健 |
主权项 |
一种基于潜在狄利克雷模型的参数推断方法,其特征在于,包括:根据设置的初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主题与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词之间的概率分布;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得到使所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个数;其中所述第一超参数为文本‑主题分布的超参数,所述第二超参数为主题个数个主题‑词分布的超参数。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |