发明名称 一种解析网页编码的方法及装置
摘要 本发明公开了一种解析网页编码的方法及装置,涉及互联网技术领域,解决了爬虫系统进行网页解析时需要对网页数据进行复杂的统计计算来猜测网页实际使用的编码这一过程所造成的获取网页信息效率低下的问题。本发明的方法包括:从网页应答包中读取网页回应数据;通过预置编码信息对网页回应数据分段进行解码,判断当前数据段中是否记录有网页编码信息;若判断结果为是,则用网页编码信息对当前数据段进行解码,当对当前数据段完全解码时,通过网页编码信息对网页回应数据进行解码;若判断结果为否,则通过预置编码信息对另一数据段进行解码,判断其中是否记录有网页编码信息。本发明主要用于使用爬虫系统实时获取网页信息。
申请公布号 CN106570044A 申请公布日期 2017.04.19
申请号 CN201510670507.2 申请日期 2015.10.13
申请人 北京国双科技有限公司 发明人 李可欣
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鼎佳达知识产权代理事务所(普通合伙) 11348 代理人 王伟锋;刘铁生
主权项 一种解析网页编码的方法,其特征在于,所述方法包括:从网页应答包中读取网页回应数据;通过预置编码信息对所述网页回应数据分段进行解码,判断当前数据段中是否记录有网页编码信息;若判断结果为是,则用所述网页编码信息对所述当前数据段进行解码,当对所述当前数据段完全解码时,通过所述网页编码信息对所述网页回应数据进行解码;若判断结果为否,则通过所述预置编码信息对另一数据段进行解码,判断其中是否记录有网页编码信息。
地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间