发明名称 |
一种图片下载系统及方法 |
摘要 |
本发明提供了一种图片下载系统及方法,所述系统包括:网页分析模块,分析网页并获取所述网页中图片的URL;图片信息库,保存已下载图片的URL,以及记录了图片与网站归属关系的文档信息;控制模块,根据网页分析模块提供的URL判断图片信息库中是否包括所述URL并发出相应的控制信号;下载模块,在所述控制模块判定所述图片信息库中不包括所述URL时,根据图片的URL下载图片并将图片的URL保存到图片信息库中;文档信息记录模块,记录图片与网站的归属关系,并保存到图片信息库中;所述控制模块还根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除。 |
申请公布号 |
CN101071433B |
申请公布日期 |
2010.08.18 |
申请号 |
CN200710074405.X |
申请日期 |
2007.05.10 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
胡景贺 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳中一专利商标事务所 44237 |
代理人 |
张全文 |
主权项 |
一种图片下载系统,其特征在于,所述系统包括:网页分析模块,用于分析网页并获取所述网页中图片的统一资源定位符;图片信息库,用于保存已下载图片的统一资源定位符,以及记录了图片与网站归属关系的文档信息;控制模块,用于根据所述网页分析模块提供的统一资源定位符判断图片信息库中是否包括所述统一资源定位符,如果包括,向文档信息记录模块发出控制信号,如果不包括,向下载模块发送控制信号;下载模块,用于在所述控制模块判定所述图片信息库中不包括所述统一资源定位符时,接收所述控制模块发送的控制信号,根据所述图片的统一资源定位符下载所述图片并将所述图片的统一资源定位符保存到图片信息库中;文档信息记录模块,用于记录所述图片与网站的归属关系,并保存到所述图片信息库中;所述控制模块进一步用于根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |