发明名称 对文本内容进行筛选的方法及装置
摘要 本发明公开了对文本内容进行筛选的方法及装置,其中,该方法包括:获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。本发明方案能够实现自动筛选出优质的文本内容。
申请公布号 CN104850537A 申请公布日期 2015.08.19
申请号 CN201410053002.7 申请日期 2014.02.17
申请人 腾讯科技(深圳)有限公司 发明人 张红林
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 周华霞;王丽琴
主权项 一种对文本内容进行筛选的方法,其特征在于,该方法包括:获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室