发明名称 一种分类语料确定方法和设备
摘要 本发明公开了一种分类语料确定方法和设备,该方法包括:从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;根据所述特征样本集确定分类特征词;根据所述分类特征词以及待选文本确定分类语料及其类别。在本发明中,提高了分类语料获取的效率和准确率。
申请公布号 CN103309857A 申请公布日期 2013.09.18
申请号 CN201210056669.3 申请日期 2012.03.06
申请人 腾讯科技(深圳)有限公司 发明人 贺翔;亓超;毛少林;翟俊杰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鑫媛睿博知识产权代理有限公司 11297 代理人 龚家骅
主权项 一种分类语料确定方法,其特征在于,包括:从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;根据所述特征样本集确定分类特征词;根据所述分类特征词以及待选文本确定分类语料及其类别。
地址 518057 广东省深圳市福田区振兴路赛格科技园2栋东403室