发明名称 基于多源领域实例迁移的情感分类方法
摘要 本发明涉及一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学中可能出现的迁移效率降低的现象,引入多源学,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学目标任务,达到对所有源领域知识的充分利用。
申请公布号 CN103761311B 申请公布日期 2016.11.02
申请号 CN201410032866.0 申请日期 2014.01.23
申请人 中国矿业大学 发明人 张倩;李海港;张勇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 淮安市科翔专利商标事务所 32110 代理人 韩晓斌
主权项 一种基于多源领域实例迁移的情感分类方法,其特征是,包括以下步骤:步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象;步骤1.1),初始化权矢量<img file="FDA0001058021060000011.GIF" wi="324" he="85" />其中<img file="FDA0001058021060000012.GIF" wi="363" he="87" />为第k个源领域训练样本的权矢量,<img file="FDA0001058021060000013.GIF" wi="327" he="78" />为目标领域训练样本的权矢量;步骤1.2),从第一次迭代开始,计算源领域训练样本总权重,设<img file="FDA0001058021060000014.GIF" wi="467" he="135" />其中<img file="FDA0001058021060000015.GIF" wi="227" he="71" />为全部源领域训练样本个数,<img file="FDA0001058021060000016.GIF" wi="59" he="54" />为第k个源领域训练集包含样本数量;步骤1.3),清空候选弱分类器集合,将权矢量<img file="FDA0001058021060000017.GIF" wi="315" he="87" />归一化;步骤2),调用基分类器在每一个训练集训练得到一个弱分类器,将所有弱分类器组成弱分类器集,分别计算每个弱分类器在目标训练集上的误差,根据测试误差对每个弱分类器加相应的权重,由于正确率高的分类器对应的源领域包含对目标任务有用的信息多,对目标任务的学习帮助大,所以误差大的分类器设置权重小,误差小的分类器设置权重大;步骤2.1),调用基分类器在每一个源训练集训练得到一个弱分类器<img file="FDA0001058021060000018.GIF" wi="123" he="63" />步骤2.2),计算弱分类器<img file="FDA0001058021060000019.GIF" wi="99" he="69" />在目标领域D<sub>b</sub>上的误差,其计算公式为<img file="FDA00010580210600000110.GIF" wi="717" he="286" />其中,<img file="FDA00010580210600000111.GIF" wi="315" he="71" />表示候选弱分类器分类错误,<img file="FDA00010580210600000112.GIF" wi="118" he="87" />表示对N个源领域求和;步骤2.3),根据弱分类器<img file="FDA00010580210600000113.GIF" wi="104" he="63" />在目标领域D<sub>b</sub>上的误差大小更新弱分类器<img file="FDA00010580210600000114.GIF" wi="99" he="63" />的权重,其计算公式为<img file="FDA00010580210600000115.GIF" wi="350" he="163" />循环往复,直到遍历N个源领域;步骤3),将加权后的弱分类器集成得到当前第t次迭代的候选分类器<img file="FDA00010580210600000116.GIF" wi="74" he="62" />然后计算候选分类器<img file="FDA00010580210600000117.GIF" wi="50" he="55" />在目标训练集和不同源领域训练集上的误差,并加入动态因子C<sub>t</sub>,更新源领域样本的权重,对于分类正确的源领域样本权重不变,分类错误的源样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;步骤3.1),得到第t次迭代的候选分类器<img file="FDA00010580210600000118.GIF" wi="75" he="54" />其计算公式为<img file="FDA00010580210600000119.GIF" wi="530" he="157" />步骤3.2),计算候选分类器<img file="FDA0001058021060000021.GIF" wi="51" he="62" />在目标领域D<sub>b</sub>上的误差率<img file="FDA0001058021060000022.GIF" wi="67" he="61" />其计算公式为<img file="FDA0001058021060000023.GIF" wi="590" he="279" />步骤3.3),计算分类器<img file="FDA0001058021060000024.GIF" wi="50" he="60" />的权重<img file="FDA0001058021060000025.GIF" wi="75" he="62" />其计算公式为<img file="FDA0001058021060000026.GIF" wi="307" he="70" />其中<img file="FDA0001058021060000027.GIF" wi="43" he="63" />的大小为<img file="FDA0001058021060000028.GIF" wi="238" he="121" /><img file="FDA0001058021060000029.GIF" wi="44" he="63" />越小,则目标分类误差越小,表明与目标领域的相关度越高,将多次迭代的基分类器组合成目标分类器,源领域中的有用知识就会逐渐迁移到目标领域中;步骤3.4),计算出动态因子C<sub>t</sub>的值,其计算公式为<img file="FDA00010580210600000210.GIF" wi="302" he="71" />步骤3.5),更新源样本权矢量和目标样本权矢量;步骤4),经迭代达到最大次数M次后输出最终强分类器<img file="FDA00010580210600000211.GIF" wi="891" he="135" />如果没有达到最大迭代次数则重新从矢量归一化开始。
地址 221008 江苏省徐州市解放南路18号中国矿业大学文昌校区信电学院信电楼302