发明名称 网页URL过滤方法、装置及系统
摘要 本发明涉及一种网页URL过滤方法、装置及系统,其方法包括:获取预先收集的同一网页的URL数据集;当URL数据集中包含多个URL时,对URL数据集中的每一URL进行字段拆分及分析;根据字段拆分及分析结果,去掉其中的无关字段,生成网页的唯一URL。本发明通过识别同一网页的各种不同URL格式,过滤URL中与网页内容无关的字段,将同一网页的各种URL转换为唯一URL,能够有效减少网页数据的存储量,提高网页访问量的统计效率和准确度,其相比传统方案,不需要人工干预,且覆盖网站广泛,计算结果准确。
申请公布号 CN104636340A 申请公布日期 2015.05.20
申请号 CN201310547585.4 申请日期 2013.11.06
申请人 腾讯科技(深圳)有限公司 发明人 蔡兵
分类号 G06F17/30(2006.01)I;H04L29/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市世纪恒程知识产权代理事务所 44287 代理人 胡海国
主权项 一种网页URL过滤方法,其特征在于,包括:获取预先收集的同一网页的URL数据集;当所述URL数据集中包含多个URL时,对所述URL数据集中的每一URL进行字段拆分及分析;根据字段拆分及分析结果,去掉其中的无关字段,生成所述网页的唯一URL。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室