发明名称 |
一种提取页面信息的方法及装置 |
摘要 |
本发明提供了一种提取页面信息的方法及装置。其中,该方法包括:获取网页中待处理的源代码;根据预设的过滤特征字符串和预设的标签匹配模式,从源代码中提取目标信息;根据提取的目标信息生成指定格式的页面信息。通过本发明,根据预设的过滤特征字符串和预设的标签匹配模式来提取目标信息,避免了通过DOM树提取待处理网页的所有内容,提高了提取页面信息的效率,适用于不同类型移动终端提取及显示页面信息。 |
申请公布号 |
CN105589913A |
申请公布日期 |
2016.05.18 |
申请号 |
CN201510335008.8 |
申请日期 |
2015.06.15 |
申请人 |
广州市动景计算机科技有限公司 |
发明人 |
蔡明 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京超凡志成知识产权代理事务所(普通合伙) 11371 |
代理人 |
王术兰 |
主权项 |
一种提取页面信息的方法,其特征在于,所述方法包括:获取网页中待处理的源代码;根据预设的过滤特征字符串和预设的标签匹配模式,从所述源代码中提取目标信息;根据提取的所述目标信息生成指定格式的页面信息。 |
地址 |
510627 广东省广州市天河区黄埔大道西平云路163号广电平云广场B塔14楼 |