发明名称 |
基于多义性关键词的文本过滤方法及装置 |
摘要 |
本发明公开一种基于多义性关键词的文本过滤方法及装置,其方法包括:以指定关键词收集文本集;基于文本集生成预定多义性关键词向量及文本向量;预定多义性关键词包括所述指定关键词;计算文本向量与预定多义性关键词向量的相似度;过滤出相似度小于预定阈值的文本向量所对应的文本。本发明基于多义性TAG筛选出其主流含义所对应的文本列表,进而筛选出用户所需要的文本,其成本小,效率高,过滤效果好,且无需人工干预,对所有多义性关键词均适用。<!--1--> |
申请公布号 |
CN104008098A |
申请公布日期 |
2014.08.27 |
申请号 |
CN201310055818.9 |
申请日期 |
2013.02.21 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
蔡兵 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市世纪恒程知识产权代理事务所 44287 |
代理人 |
胡海国 |
主权项 |
一种基于多义性关键词的文本过滤方法,其特征在于,包括:以指定关键词收集文本集;基于所述文本集生成预定多义性关键词向量及文本向量;所述预定多义性关键词包括所述指定关键词;计算所述文本向量与所述预定多义性关键词向量的相似度;过滤出相似度小于预定阈值的文本向量所对应的文本。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |