一种基于潜在语义分析的迁移学方法,申请号CN201310069560.8-传众专利搜索

发明名称	一种基于潜在语义分析的迁移学方法
摘要	本发明的目的在于提供一种基于潜在语义分析的迁移学方法，包括以下步骤：对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇‑文本矩阵M，对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间，去除源领域中同义词噪音影响，调整矩阵M结构，从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整，分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类。
申请公布号	CN103176961B	申请公布日期	2017.02.08
申请号	CN201310069560.8	申请日期	2013.03.05
申请人	哈尔滨工程大学	发明人	初妍;陈曼;夏琳琳;沈洁;张健沛;杨静;王勇;高迪;王兴梅;李丽洁
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构		代理人
主权项	一种基于潜在语义分析的迁移学习方法，其特征是：(1)对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇‑文本矩阵M；(2)对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间：矩阵M可表示为：M＝UΣV<sup>T</sup>U、V是正交阵，UU<sup>T</sup>＝VV<sup>T</sup>＝I，Σ＝diag(a<sub>1</sub>,a<sub>2</sub>,...,a<sub>k</sub>,...,a<sub>v</sub>)是对角阵，a<sub>1</sub>,a<sub>2</sub>,···,a<sub>v</sub>为M的奇异值，潜在语义分析只取前k个最大的奇异值，而将剩余的值设为零，<maths num="0001"><math><![CDATA[<mrow><mover><mi>M</mi><mo>~</mo></mover><mo>=</mo><mi>U</mi><mover><mo>Σ</mo><mo>~</mo></mover><msup><mi>V</mi><mi>T</mi></msup><mo>≈</mo><mi>U</mi><mo>Σ</mo><msup><mi>V</mi><mi>T</mi></msup><mo>=</mo><mi>M</mi><mo>;</mo></mrow>]]></math><img file="FDA0000998147360000011.GIF" wi="620" he="86" /></maths>(3)去除源领域中同义词噪音影响，调整矩阵M结构：计算词汇与词汇之间的相似度，即对矩阵做正向乘法：<maths num="0002"><math><![CDATA[<mrow><mover><mi>M</mi><mo>~</mo></mover><msup><mover><mi>M</mi><mo>~</mo></mover><mi>T</mi></msup><mo>=</mo><mrow><mo>(</mo><mi>U</mi><mover><mo>Σ</mo><mo>~</mo></mover><msup><mi>V</mi><mi>T</mi></msup><mo>)</mo></mrow><msup><mrow><mo>(</mo><mi>U</mi><mover><mo>Σ</mo><mo>~</mo></mover><msup><mi>V</mi><mi>T</mi></msup><mo>)</mo></mrow><mi>T</mi></msup></mrow>]]></math><img file="FDA0000998147360000012.GIF" wi="531" he="71" /></maths>所求得的结果中，第i行第j列表明了词汇i与词汇j之间的相似程度，设定阈值θ<sub>1</sub>，从源领域中找出与目标领域词汇相似度大于θ<sub>1</sub>的词汇，记为目标领域词汇的同义词汇，将源领域该词汇用目标领域词汇替换，调整矩阵M结构；从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整：在M矩阵中，第i行第j列上的权重即代表该行词汇与该列文本的关联度，设置阈值θ<sub>2</sub>，从在源领域词汇中，筛选出与目标领域文本相关度大于θ<sub>2</sub>的词汇作为目标领域的迁移词，将该词汇放到描述目标领域数据的词汇行中，调整矩阵结构；(4)分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类；所述的词汇‑文本矩阵M的获得方法为：词汇权重W(i,j)的计算方法包括文本贡献权重LW(i,j)和类标签贡献权重GET(i)两部分，将两个权重相乘，得到最终词汇权重：取词汇频率的对数定义文本贡献权重：LW(i,j)＝log(Tf(i,j)+1)其中Tf(i,j)代表词汇i在文本j中出现的频率；借助熵的概念来表示词汇的类标签贡献权重，熵(H(X))是对信源X不确定的度量，条件熵H(X\|Y)表示在Y发生的情况下X的熵，即当Y确定时，对X的不确定程度，H(X)‑H(X\|Y)即为当Y发生时，对X的确定程度，由此定义类标签贡献权重可表示为：<maths num="0003"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>G</mi><mi>E</mi><mi>T</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mi>H</mi><mrow><mo>(</mo><mi>K</mi><mo>)</mo></mrow><mo>-</mo><mi>H</mi><mrow><mo>(</mo><mi>K</mi><mo>\|</mo><mi>i</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mo>-</mo><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>=</mo><mi>m</mi></mrow></munderover><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mi>log</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>=</mo><mi>m</mi></mrow></munderover><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow><mi>log</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mi>log</mi><mi> </mi><mi>m</mi><mo>+</mo><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>=</mo><mi>m</mi></mrow></munderover><mfrac><mrow><mi>C</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><mi>G</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mi>log</mi><mfrac><mrow><mi>C</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><mi>G</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000998147360000021.GIF" wi="813" he="455" /></maths>其中K代表类标签k＝{1,2,...,m}集合，i代表第i个词汇，Cf(k,i)代表在类别k中，i词汇出现的次数，Gf(k)所有词汇出现次数的总和；分别计算源领域与目标领域词汇的类标签贡献权重：<img file="FDA0000998147360000022.GIF" wi="1413" he="327" />其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值；由此得到训练数据的词汇—文本矩阵M，其中M的值m(i，j)即为W(i，j)：W(i,j)＝LW(i,j)×GET(i)。
地址	150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室