发明名称 |
网页URL过滤方法、装置及系统 |
摘要 |
本发明涉及一种网页URL过滤方法、装置及系统,其方法包括:获取预先收集的同一网页的URL数据集;当URL数据集中包含多个URL时,对URL数据集中的每一URL进行字段拆分及分析;根据字段拆分及分析结果,去掉其中的无关字段,生成网页的唯一URL。本发明通过识别同一网页的各种不同URL格式,过滤URL中与网页内容无关的字段,将同一网页的各种URL转换为唯一URL,能够有效减少网页数据的存储量,提高网页访问量的统计效率和准确度,其相比传统方案,不需要人工干预,且覆盖网站广泛,计算结果准确。 |
申请公布号 |
CN104636340A |
申请公布日期 |
2015.05.20 |
申请号 |
CN201310547585.4 |
申请日期 |
2013.11.06 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
蔡兵 |
分类号 |
G06F17/30(2006.01)I;H04L29/06(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市世纪恒程知识产权代理事务所 44287 |
代理人 |
胡海国 |
主权项 |
一种网页URL过滤方法,其特征在于,包括:获取预先收集的同一网页的URL数据集;当所述URL数据集中包含多个URL时,对所述URL数据集中的每一URL进行字段拆分及分析;根据字段拆分及分析结果,去掉其中的无关字段,生成所述网页的唯一URL。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |