主权项 |
一种基于潜在语义分析的迁移学习方法,其特征是:(1)对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇‑文本矩阵M;(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间:矩阵M可表示为:M=UΣVTU、V是正交阵(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是对角阵,(a1,a2,...,av为M的奇异值),潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零, <mrow> <mover> <mi>M</mi> <mo>~</mo> </mover> <mo>=</mo> <mi>U</mi> <mover> <mi>Σ</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>≈</mo> <mi>UΣ</mi> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>=</mo> <mi>M</mi> <mo>;</mo> </mrow>(3)去除源领域中同义词噪音影响,调整矩阵M结构:计算词汇与词汇之间的相似度,即对矩阵做正向乘法: <mrow> <mover> <mi>M</mi> <mo>~</mo> </mover> <msup> <mover> <mi>M</mi> <mo>~</mo> </mover> <mi>T</mi> </msup> <mo>=</mo> <mrow> <mo>(</mo> <mi>U</mi> <mover> <mi>Σ</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>U</mi> <mover> <mi>Σ</mi> <mo>~</mo> </mover> <msup> <mi>V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度,设定阈值θ1,从源领域中找出与目标领域词汇相似度大于θ1的词汇,记为目标领域词汇的同义词汇,将源领域该词汇用目标领域词汇替换,调整矩阵M结构;从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整:在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度,设置阈值θ2,从在源领域词汇中,筛选出与目标领域文本相关度大于θ2的词汇作为目标领域的迁移词,将该词汇放到描述目标领域数据的词汇行中,调整矩阵结构;(4)分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征 表示,在训数据集中得到最终分类器,对测试数据集S进行分类。 |