发明名称 一种清洗数据的方法及装置
摘要 本发明提供了一种清洗数据的方法及装置,该方法包括:获取预先收集的用户上网行为数据,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,request_url字段和referer字段的内容均为URL;统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算第二数值与第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,行为树包括多个叶子节点,叶子节点对应于request_url字段的一个URL;判断各个叶子节点的URL对应的第一比值是否小于一预设阈值,在小于预设阈值时,删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中,有效清除了无用数据。
申请公布号 CN105989019A 申请公布日期 2016.10.05
申请号 CN201510046610.X 申请日期 2015.01.29
申请人 北京秒针信息咨询有限公司 发明人 陈家耀;李长刚;冯是聪;吴明辉
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京银龙知识产权代理有限公司 11243 代理人 许静;黄灿
主权项 一种清洗数据的方法,其特征在于,包括:获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
地址 102218 北京市昌平区东小口镇中东路398号1号楼4层