发明名称 一种语料处理方法和装置
摘要 提供一种语料处理方法和装置,包括:获取待分类的第一语料集合;从所述第一语料集合中确定第二语料集合,所述第二语料集合中的第二语料的评价对象都为第一评价对象,而且所述第二语料的关于所述第一评价对象的评价内容都被标注为正面评价;从所述第一语料集合中确定第三语料集合,所述第三语料集合中的第三语料的评价对象都为所述第一评价对象,而且所述第三语料的关于所述第一评价对象的评价内容都被标注为负面评价,判断所述第二语料集合中的第二语料是否与所述第三语料集合中的任一条第三语料关于所述第一评价对象的评价内容为同义词或近义词;以及对语料集合进行处理。本发明提供的语料处理方法可以提高分类语料的利用率与准确性以及覆盖面。
申请公布号 CN105989081A 申请公布日期 2016.10.05
申请号 CN201510072762.7 申请日期 2015.02.11
申请人 联想(北京)有限公司 发明人 卓雷;赵凯;葛安生
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 安之斐
主权项 一种语料处理方法,所述语料处理方法所处理后的语料用于进行情感分类,所述语料处理方法包括:获取待分类的第一语料集合;从所述第一语料集合中确定第二语料集合,所述第二语料集合中的第二语料的评价对象都为第一评价对象,而且所述第二语料的关于所述第一评价对象的评价内容都被标注为正面评价,并且所述第二语料集合中的语料的数目小于第一阈值;从所述第一语料集合中确定第三语料集合,所述第三语料集合中的第三语料的评价对象都为所述第一评价对象,而且所述第三语料的关于所述第一评价对象的评价内容都被标注为负面评价,并且所述第三语料集合中的语料的数目小于第一阈值;判断所述第二语料集合中的第二语料是否与所述第三语料集合中的任一条第三语料关于所述第一评价对象的评价内容为同义词或者近义词;以及根据判断结果对第二语料集合和/或第三语料集合进行处理,其中,所述第一阈值用于判断特定数目的语料是否被保留。
地址 100085 北京市海淀区上地西路6号