发明名称 一种基于潜在语义分析的迁移学方法
摘要 本发明的目的在于提供一种基于潜在语义分析的迁移学方法,包括以下步骤:对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M,对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,去除源领域中同义词噪音影响,调整矩阵M结构,从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整,分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。
申请公布号 CN103176961A 申请公布日期 2013.06.26
申请号 CN201310069560.8 申请日期 2013.03.05
申请人 哈尔滨工程大学 发明人 初妍;陈曼;夏琳琳;沈洁;张健沛;杨静;王勇;高迪;王兴梅;李丽洁
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种基于潜在语义分析的迁移学习方法,其特征是:(1)对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇‑文本矩阵M;(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间:矩阵M可表示为:M=UΣVTU、V是正交阵(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是对角阵,(a1,a2,...,av为M的奇异值),潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零, <mrow> <mover> <mi>M</mi> <mo>~</mo> </mover> <mo>=</mo> <mi>U</mi> <mover> <mi>&Sigma;</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>&ap;</mo> <mi>U&Sigma;</mi> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>=</mo> <mi>M</mi> <mo>;</mo> </mrow>(3)去除源领域中同义词噪音影响,调整矩阵M结构:计算词汇与词汇之间的相似度,即对矩阵做正向乘法: <mrow> <mover> <mi>M</mi> <mo>~</mo> </mover> <msup> <mover> <mi>M</mi> <mo>~</mo> </mover> <mi>T</mi> </msup> <mo>=</mo> <mrow> <mo>(</mo> <mi>U</mi> <mover> <mi>&Sigma;</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>U</mi> <mover> <mi>&Sigma;</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度,设定阈值θ1,从源领域中找出与目标领域词汇相似度大于θ1的词汇,记为目标领域词汇的同义词汇,将源领域该词汇用目标领域词汇替换,调整矩阵M结构;从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整:在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度,设置阈值θ2,从在源领域词汇中,筛选出与目标领域文本相关度大于θ2的词汇作为目标领域的迁移词,将该词汇放到描述目标领域数据的词汇行中,调整矩阵结构;(4)分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征 表示,在训数据集中得到最终分类器,对测试数据集S进行分类。
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室