对文本内容进行筛选的方法及装置,申请号CN201410053002.7-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	对文本内容进行筛选的方法及装置
摘要	本发明公开了对文本内容进行筛选的方法及装置，其中，该方法包括：获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。本发明方案能够实现自动筛选出优质的文本内容。
申请公布号	CN104850537A	申请公布日期	2015.08.19
申请号	CN201410053002.7	申请日期	2014.02.17
申请人	腾讯科技（深圳）有限公司	发明人	张红林
分类号	G06F17/27(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	北京德琦知识产权代理有限公司 11018	代理人	周华霞;王丽琴
主权项	一种对文本内容进行筛选的方法，其特征在于，该方法包括：获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
地址	518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

您可能感兴趣的专利

Process for the continuous production of tetrachlorophthalo-nitrile in two reactors in series

Apparatus for sterilizing fluids

Rotary grinding tool

Coil density modulation

Lead-tolerant catalyst system for treating exhaust gas containing lead compounds

Method and apparatus for testing electro-mechanical devices

RADIO WAVE SYSTEM

RECORDING AND REPRODUCING DEVICE

METHOD OF PRODUCING ELECTRIC COMMUNICATION CABLE CORE UNIT

METHOD OF PRODUCING ELECTRIC COMMUNICATION CABLE CORE UNIT

METHOD OF CONNECTING CONDUCTOR

ELECTRIC SWITCH

SEMICONDUCTOR ORIENTED COMPOSITION FOR POWER CABLE

METHOD OF PRODUCING INSULATOR IN IGNITION PLUG

X-RAY TUBE ROTARY ANODE AND METHOD OF PRODUCING SAME

MAGNETIC BUBBLE CONTROL DEVICE

HEAD FEEDING DEVICE OF FLOPPY DISC DRIVE

THIN FILM FORMING DEVICE

MAGNETIC RECORDING MEDIUM