发明名称 一种基于移动终端的网页数据采集及归类的方法
摘要 一种基于移动终端的网页数据采集及归类的方法,确定所需要解析的内容。查找并记录标签元素的路径XPath。XPath用来确定XML文档中的位置,指定XML文档的路径。获取HTML网页源代码。根据标签元素路径解析HTML标签,同时要解析出所需要的内容。内容归类,或根据所解析出来的内容的链接二次获取详细内容。内容归类依据需求进行归类,比如要解析一个网页中的所有图片,就需要找到所有图片的链接获取,再在移动客户端上使用HTTP协议进行二次请求获取图片内容,保存到移动客户端上。显示到移动客户端。
申请公布号 CN104573001A 申请公布日期 2015.04.29
申请号 CN201510008016.1 申请日期 2015.01.07
申请人 北京联合大学 发明人 孙连英;刘畅;任运贵
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 一种基于移动终端的网页数据采集及归类的方法,其特征在于:该方法包括以下步骤,步骤一,确定所需要解析的内容,这些内容从资源的角度而言包括文字、图片、音频和视频;从形式的角度来而言包括一段文字、一篇文章、一个文章列表、图片列表、音频或视频列表,其解析内容由用户需求决定;步骤二,查找并记录标签元素的路径XPath;XPath用来确定XML文档中的位置,指定XML文档的路径;XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力;HTML可转换成XML,所以对于HTML的元素来说也具有XPath,即根据XPath找到HTML元素;找XPath根据浏览器的扩展工具进行查找,如使用“Google Chrome的审查元素”功能快速查找;步骤三,获取HTML网页源代码;移动客户端通过HTTP协议请求下载HTML文件,网页的获取需要结合多线程及异步操作进行下载,防止堵塞界面,提高性能;步骤四,根据标签元素路径解析HTML标签,同时要解析出所需要的内容;能解析的内容参考步骤一;步骤五,内容归类,或根据所解析出来的内容的链接二次获取详细内容;内容归类依据需求进行归类,比如要解析一个网页中的所有图片,就需要找到所有图片的链接获取,再在移动客户端上使用HTTP协议进行二次请求获取图片内容,保存到移动客户端上;步骤六,显示到移动客户端;上述移动客户端是IOS、Android、或Windows Phone下的移动客户端;使用相对应的移动应用开发工具建立一个工程,然后设计必要的界面,再在后台代码进行处理下载的数据,将所需解析的内容显示到移动客户端上。
地址 100101 北京市朝阳区北四环东路97号