发明名称 | 深度包检测装置、网页数据处理方法、采集方法及系统 | ||
摘要 | 本发明公开了一种网页数据处理方法、网页数据采集方法、深度包检测装置以及网页数据采集系统。其中,网页数据采集方法包括根据网页地址信息库选择性地抓取流向网页服务器的HTTP协议报文;解析抓取到的HTTP协议报文的内容;提取HTTP协议报文中的标签字段的内容;根据标签字段的内容对抓取到的HTTP协议报文中的数据进行选择性采集。本发明能够将深度包检测技术与网页数据采集技术相结合,提升了对网页数据的采集分析效率,减小了对海量数据进行采集和分析的成本。同时,由于采用标签字段,所以能够更准确地对网页的数据进行采集。 | ||
申请公布号 | CN101997915A | 申请公布日期 | 2011.03.30 |
申请号 | CN201010532086.4 | 申请日期 | 2010.10.29 |
申请人 | 中国电信股份有限公司 | 发明人 | 蔡逆水;陈强;杨俊;蒋丹舟 |
分类号 | H04L29/08(2006.01)I | 主分类号 | H04L29/08(2006.01)I |
代理机构 | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人 | 孙宝海 |
主权项 | 一种网页数据处理方法,其特征在于,包括:根据数据采集需求确定每个网页的HTTP协议报文的数据采集范围;在每个网页的HTTP协议报文中加入标签字段,所述标签字段的内容表示网页的HTTP协议报文的数据采集范围。 | ||
地址 | 100032 北京市西城区金融大街31号 |