发明名称 |
一种清洗数据的方法及装置 |
摘要 |
本发明提供了一种清洗数据的方法及装置,该方法包括:获取预先收集的用户上网行为数据,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,request_url字段和referer字段的内容均为URL;统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算第二数值与第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,行为树包括多个叶子节点,叶子节点对应于request_url字段的一个URL;判断各个叶子节点的URL对应的第一比值是否小于一预设阈值,在小于预设阈值时,删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中,有效清除了无用数据。 |
申请公布号 |
CN105989019A |
申请公布日期 |
2016.10.05 |
申请号 |
CN201510046610.X |
申请日期 |
2015.01.29 |
申请人 |
北京秒针信息咨询有限公司 |
发明人 |
陈家耀;李长刚;冯是聪;吴明辉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京银龙知识产权代理有限公司 11243 |
代理人 |
许静;黄灿 |
主权项 |
一种清洗数据的方法,其特征在于,包括:获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。 |
地址 |
102218 北京市昌平区东小口镇中东路398号1号楼4层 |