发明名称 一种基于多粒度主题模型的短文本哈希学方法
摘要 本发明公开了一种基于多粒度主题模型的短文本哈希学方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学;本发明方法采用了两种基于多主题模型的哈希学策略,分别为多粒度主题特征融合、哈希码学同哈希函数训练相独立的学方法,以及多粒度主题特征独立、哈希码学同哈希函数训练相耦合的学方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。
申请公布号 CN104408153A 申请公布日期 2015.03.11
申请号 CN201410729347.X 申请日期 2014.12.03
申请人 中国科学院自动化研究所 发明人 郝红卫;许家铭;徐博;田冠华;王方圆
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 宋焰琴
主权项 一种基于多粒度主题模型的短文本哈希离线训练方法,包括以下步骤:步骤1,利用大规模语料库训练N个候选主题模型T={T<sub>1</sub>,T<sub>2</sub>,...,T<sub>N</sub>},其中所述大规模语料库为外部通用的大规模语料库,N为训练得到的候选主题模型的数目,为一个正整数;步骤2,从训练集X中随即抽取一部分带有标签信息的样本<img file="FDA00006238586700000113.GIF" wi="49" he="61" />选择M个最优多粒度主题模型集合及对应权重μ={μ(T<sub>1</sub>),μ(T<sub>2</sub>),...,μ(T<sub>N</sub>)},其中,M为预先设定的最优多粒度主题模型的数目,为一个正整数;步骤3,计算训练集原始特征的TF‑IDF特征w,并进行归一化;步骤4,从最优的M个主题模型中抽取多粒度主题特征{θ<sub>1</sub>,θ<sub>2</sub>,...,θ<sub>M</sub>};步骤5,通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习,得到训练集哈希码和哈希函数。
地址 100190 北京市海淀区中关村东路95号
您可能感兴趣的专利