发明名称 一种提取页面信息的方法及装置
摘要 本发明提供了一种提取页面信息的方法及装置。其中,该方法包括:获取网页中待处理的源代码;根据预设的过滤特征字符串和预设的标签匹配模式,从源代码中提取目标信息;根据提取的目标信息生成指定格式的页面信息。通过本发明,根据预设的过滤特征字符串和预设的标签匹配模式来提取目标信息,避免了通过DOM树提取待处理网页的所有内容,提高了提取页面信息的效率,适用于不同类型移动终端提取及显示页面信息。
申请公布号 CN105589913A 申请公布日期 2016.05.18
申请号 CN201510335008.8 申请日期 2015.06.15
申请人 广州市动景计算机科技有限公司 发明人 蔡明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人 王术兰
主权项 一种提取页面信息的方法,其特征在于,所述方法包括:获取网页中待处理的源代码;根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息;根据提取的所述目标信息生成指定格式的页面信息。
地址 510627 广东省广州市天河区黄埔大道西平云路163号广电平云广场B塔14楼