发明名称 |
对文本内容进行筛选的方法及装置 |
摘要 |
本发明公开了对文本内容进行筛选的方法及装置,其中,该方法包括:获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。本发明方案能够实现自动筛选出优质的文本内容。 |
申请公布号 |
CN104850537A |
申请公布日期 |
2015.08.19 |
申请号 |
CN201410053002.7 |
申请日期 |
2014.02.17 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
张红林 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京德琦知识产权代理有限公司 11018 |
代理人 |
周华霞;王丽琴 |
主权项 |
一种对文本内容进行筛选的方法,其特征在于,该方法包括:获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |