发明名称 一种基于双视图主动学技术的跨语言文本分类方法
摘要 本发明涉及一种基于双视图主动学技术的跨语言文本分类方法,具体步骤为:(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;(2)训练初始分类器:首先利用其源语言的版本训练得到一个分类器,再利用其目标语言的版本训练得到一个分类器;(3)主动学过程:扩充训练集,并利用新的训练集,重新训练分类器,最后得到两个增强的分类器;(4)分类过程:使用增强的分类器进行分类。本发明通过主动学技术增强跨语言文本分类效果,同时需要人工标注的目标语言样本数大大减少。
申请公布号 CN102567529A 申请公布日期 2012.07.11
申请号 CN201110453251.1 申请日期 2011.12.30
申请人 北京理工大学 发明人 戴林;刘越
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于双视图主动学习技术的跨语言文本分类方法,设源语言和目标语言分别表示为E和C,源语言训练集表示为TRe,另有额外的目标语言未标注文本集合表示为Uc;则跨语言文本分类方法具体步骤如下:(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;将每种语言的版本看作是一种视图,则每篇文本都具有了两种视图,分别为E视图和C视图;对于TRe,其双视图版本表示为TR;对于Uc,其双视图版本表示为U;(2)训练初始分类器:用TR作为训练集,首先利用其源语言的版本训练得到一个分类器Ce,再利用其目标语言的版本训练得到一个分类器Cc;训练得到的分类器需要能够给出一篇文章属于各个类别的概率;(3)主动学习过程:a)分别用Ce和Cc基于E视图和C视图对U中的文本进行分类,并计算分类概率;b)选取出n篇Cc和Ce的平均可信度最低的文本,这些文本中包含了难于在源语言或者由源语言翻译为目标语言的训练集中学习到的分类知识,将其人工标注后,作为新的训练文本加入训练集;c)选取出m篇Cc的可信度高于Ce的文本,使用Cc的分类结果为其做标注,然后将其加入训练集;选取出m篇Ce的可信度高于Cc的文本,使用Ce的分类结果为其做标注,然后将其加入训练集;d)最后,利用新的训练集,重新训练Cc和Ce;迭代执行a到d四个步骤I次;以上n和m是不大于U中总文本数的正整数;I是正整数;经过该主动学习过程,得到了两个增强的分类器Cc和Ce;(4)分类过程:对于一篇待分类的目标语言C描述的文本,先利用机器翻译工具构造它的E视图,然后分别用Cc和Ce基于它的C和E视图进行分类;两个分类器会各自给出文本属于每个类别的概率值,取二者的平均值作为文本属于该类的最终概率值;最后,取概率最高的类别作为文本的类别。
地址 100081 北京市海淀区中关村南大街5号