发明名称 一种基于潜在语义分析的迁移学方法
摘要 本发明的目的在于提供一种基于潜在语义分析的迁移学方法,包括以下步骤:对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇‑文本矩阵M,对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,去除源领域中同义词噪音影响,调整矩阵M结构,从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整,分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。
申请公布号 CN103176961B 申请公布日期 2017.02.08
申请号 CN201310069560.8 申请日期 2013.03.05
申请人 哈尔滨工程大学 发明人 初妍;陈曼;夏琳琳;沈洁;张健沛;杨静;王勇;高迪;王兴梅;李丽洁
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种基于潜在语义分析的迁移学习方法,其特征是:(1)对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇‑文本矩阵M;(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间:矩阵M可表示为:M=UΣV<sup>T</sup>U、V是正交阵,UU<sup>T</sup>=VV<sup>T</sup>=I,Σ=diag(a<sub>1</sub>,a<sub>2</sub>,...,a<sub>k</sub>,...,a<sub>v</sub>)是对角阵,a<sub>1</sub>,a<sub>2</sub>,···,a<sub>v</sub>为M的奇异值,潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零,<maths num="0001"><math><![CDATA[<mrow><mover><mi>M</mi><mo>~</mo></mover><mo>=</mo><mi>U</mi><mover><mo>&Sigma;</mo><mo>~</mo></mover><msup><mi>V</mi><mi>T</mi></msup><mo>&ap;</mo><mi>U</mi><mo>&Sigma;</mo><msup><mi>V</mi><mi>T</mi></msup><mo>=</mo><mi>M</mi><mo>;</mo></mrow>]]></math><img file="FDA0000998147360000011.GIF" wi="620" he="86" /></maths>(3)去除源领域中同义词噪音影响,调整矩阵M结构:计算词汇与词汇之间的相似度,即对矩阵做正向乘法:<maths num="0002"><math><![CDATA[<mrow><mover><mi>M</mi><mo>~</mo></mover><msup><mover><mi>M</mi><mo>~</mo></mover><mi>T</mi></msup><mo>=</mo><mrow><mo>(</mo><mi>U</mi><mover><mo>&Sigma;</mo><mo>~</mo></mover><msup><mi>V</mi><mi>T</mi></msup><mo>)</mo></mrow><msup><mrow><mo>(</mo><mi>U</mi><mover><mo>&Sigma;</mo><mo>~</mo></mover><msup><mi>V</mi><mi>T</mi></msup><mo>)</mo></mrow><mi>T</mi></msup></mrow>]]></math><img file="FDA0000998147360000012.GIF" wi="531" he="71" /></maths>所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度,设定阈值θ<sub>1</sub>,从源领域中找出与目标领域词汇相似度大于θ<sub>1</sub>的词汇,记为目标领域词汇的同义词汇,将源领域该词汇用目标领域词汇替换,调整矩阵M结构;从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整:在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度,设置阈值θ<sub>2</sub>,从在源领域词汇中,筛选出与目标领域文本相关度大于θ<sub>2</sub>的词汇作为目标领域的迁移词,将该词汇放到描述目标领域数据的词汇行中,调整矩阵结构;(4)分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类;所述的词汇‑文本矩阵M的获得方法为:词汇权重W(i,j)的计算方法包括文本贡献权重LW(i,j)和类标签贡献权重GET(i)两部分,将两个权重相乘,得到最终词汇权重:取词汇频率的对数定义文本贡献权重:LW(i,j)=log(Tf(i,j)+1)其中Tf(i,j)代表词汇i在文本j中出现的频率;借助熵的概念来表示词汇的类标签贡献权重,熵(H(X))是对信源X不确定的度量,条件熵H(X|Y)表示在Y发生的情况下X的熵,即当Y确定时,对X的不确定程度,H(X)‑H(X|Y)即为当Y发生时,对X的确定程度,由此定义类标签贡献权重可表示为:<maths num="0003"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>G</mi><mi>E</mi><mi>T</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mi>H</mi><mrow><mo>(</mo><mi>K</mi><mo>)</mo></mrow><mo>-</mo><mi>H</mi><mrow><mo>(</mo><mi>K</mi><mo>|</mo><mi>i</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mo>-</mo><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>=</mo><mi>m</mi></mrow></munderover><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mi>log</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>=</mo><mi>m</mi></mrow></munderover><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow><mi>log</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mi>log</mi><mi> </mi><mi>m</mi><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>=</mo><mi>m</mi></mrow></munderover><mfrac><mrow><mi>C</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><mi>G</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mi>log</mi><mfrac><mrow><mi>C</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><mi>G</mi><mi>f</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000998147360000021.GIF" wi="813" he="455" /></maths>其中K代表类标签k={1,2,...,m}集合,i代表第i个词汇,Cf(k,i)代表在类别k中,i词汇出现的次数,Gf(k)所有词汇出现次数的总和;分别计算源领域与目标领域词汇的类标签贡献权重:<img file="FDA0000998147360000022.GIF" wi="1413" he="327" />其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值;由此得到训练数据的词汇—文本矩阵M,其中M的值m(i,j)即为W(i,j):W(i,j)=LW(i,j)×GET(i)。
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
您可能感兴趣的专利