一种基于潜在语义分析的迁移学方法,申请号CN201310069560.8-传众专利搜索

发明名称	一种基于潜在语义分析的迁移学方法
摘要	本发明的目的在于提供一种基于潜在语义分析的迁移学方法，包括以下步骤：对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇-文本矩阵M，对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间，去除源领域中同义词噪音影响，调整矩阵M结构，从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整，分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类。
申请公布号	CN103176961A	申请公布日期	2013.06.26
申请号	CN201310069560.8	申请日期	2013.03.05
申请人	哈尔滨工程大学	发明人	初妍;陈曼;夏琳琳;沈洁;张健沛;杨静;王勇;高迪;王兴梅;李丽洁
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构		代理人
主权项	一种基于潜在语义分析的迁移学习方法，其特征是：（1）对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇‑文本矩阵M；（2）对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间：矩阵M可表示为：M＝UΣVTU、V是正交阵（UUT＝VVT＝I），Σ＝diag(a1,a2,...,ak,...,av)是对角阵，(a1,a2,...,av为M的奇异值)，潜在语义分析只取前k个最大的奇异值，而将剩余的值设为零， <mrow> <mover> <mi>M</mi> <mo>~</mo> </mover> <mo>=</mo> <mi>U</mi> <mover> <mi>Σ</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>≈</mo> <mi>UΣ</mi> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>=</mo> <mi>M</mi> <mo>;</mo> </mrow>（3）去除源领域中同义词噪音影响，调整矩阵M结构：计算词汇与词汇之间的相似度，即对矩阵做正向乘法： <mrow> <mover> <mi>M</mi> <mo>~</mo> </mover> <msup> <mover> <mi>M</mi> <mo>~</mo> </mover> <mi>T</mi> </msup> <mo>=</mo> <mrow> <mo>(</mo> <mi>U</mi> <mover> <mi>Σ</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>U</mi> <mover> <mi>Σ</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>所求得的结果中，第i行第j列表明了词汇i与词汇j之间的相似程度，设定阈值θ1，从源领域中找出与目标领域词汇相似度大于θ1的词汇，记为目标领域词汇的同义词汇，将源领域该词汇用目标领域词汇替换，调整矩阵M结构；从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整：在M矩阵中，第i行第j列上的权重即代表该行词汇与该列文本的关联度，设置阈值θ2，从在源领域词汇中，筛选出与目标领域文本相关度大于θ2的词汇作为目标领域的迁移词，将该词汇放到描述目标领域数据的词汇行中，调整矩阵结构；（4）分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类。
地址	150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室