一种基于多粒度主题模型的短文本哈希学方法,申请号CN201410729347.X-传众专利搜索

发明名称	一种基于多粒度主题模型的短文本哈希学方法
摘要	本发明公开了一种基于多粒度主题模型的短文本哈希学方法，采用外部大规模语料库训练候选主题模型，可依据数据集类型选择最优的多粒度主题特征，并赋予权重，由该方法选择出来的多粒度主题模型有较好的区分度，在构建稀疏短文本间相似语义关联的同时有助于哈希函数学；本发明方法采用了两种基于多主题模型的哈希学策略，分别为多粒度主题特征融合、哈希码学同哈希函数训练相独立的学方法，以及多粒度主题特征独立、哈希码学同哈希函数训练相耦合的学方法，较基于单粒度主题特征方法，在精度和召回率等多项测评指标上均有大幅度提升。
申请公布号	CN104408153A	申请公布日期	2015.03.11
申请号	CN201410729347.X	申请日期	2014.12.03
申请人	中国科学院自动化研究所	发明人	郝红卫;许家铭;徐博;田冠华;王方圆
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	中科专利商标代理有限责任公司 11021	代理人	宋焰琴
主权项	一种基于多粒度主题模型的短文本哈希离线训练方法，包括以下步骤：步骤1，利用大规模语料库训练N个候选主题模型T＝{T<sub>1</sub>，T<sub>2</sub>，...，T<sub>N</sub>}，其中所述大规模语料库为外部通用的大规模语料库，N为训练得到的候选主题模型的数目，为一个正整数；步骤2，从训练集X中随即抽取一部分带有标签信息的样本<img file="FDA00006238586700000113.GIF" wi="49" he="61" />选择M个最优多粒度主题模型集合及对应权重μ＝{μ(T<sub>1</sub>)，μ(T<sub>2</sub>)，...，μ(T<sub>N</sub>)}，其中，M为预先设定的最优多粒度主题模型的数目，为一个正整数；步骤3，计算训练集原始特征的TF‑IDF特征w，并进行归一化；步骤4，从最优的M个主题模型中抽取多粒度主题特征{θ<sub>1</sub>，θ<sub>2</sub>，...，θ<sub>M</sub>}；步骤5，通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习，得到训练集哈希码和哈希函数。
地址	100190 北京市海淀区中关村东路95号