发明名称 |
网页信息处理方法及装置 |
摘要 |
本发明的实施例提供一种网页信息处理方法及装置,涉及计算机技术领域,包括:对原始网页进行特征识别,得出各特征的取值;根据所述各特征的取值判断所述原始网页是否为目标网页;当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片。采用本发明提供的方法进行处理后得出的小说页面既简洁,同时不失关注点又便于阅读。 |
申请公布号 |
CN103729354B |
申请公布日期 |
2015.10.21 |
申请号 |
CN201210382157.6 |
申请日期 |
2012.10.10 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
蔡兵 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州华进联合专利商标代理有限公司 44224 |
代理人 |
何平;邓云鹏 |
主权项 |
一种网页信息处理方法,其特征在于,包括:对原始网页进行特征识别,得出各特征的取值,所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征;根据所述各特征的取值判断所述原始网页是否为目标网页;当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片;所述根据所述各特征的取值判断所述原始网页是否为目标网页包括:判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;或者,判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;或者,判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;或者,判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。 |
地址 |
518000 广东省深圳市福田区振兴路赛格科技园2栋东403室 |