一种基于移动终端的网页数据采集及归类的方法,申请号CN201510008016.1-传众专利搜索

发明名称	一种基于移动终端的网页数据采集及归类的方法
摘要	一种基于移动终端的网页数据采集及归类的方法，确定所需要解析的内容。查找并记录标签元素的路径XPath。XPath用来确定XML文档中的位置，指定XML文档的路径。获取HTML网页源代码。根据标签元素路径解析HTML标签，同时要解析出所需要的内容。内容归类，或根据所解析出来的内容的链接二次获取详细内容。内容归类依据需求进行归类，比如要解析一个网页中的所有图片，就需要找到所有图片的链接获取，再在移动客户端上使用HTTP协议进行二次请求获取图片内容，保存到移动客户端上。显示到移动客户端。
申请公布号	CN104573001A	申请公布日期	2015.04.29
申请号	CN201510008016.1	申请日期	2015.01.07
申请人	北京联合大学	发明人	孙连英;刘畅;任运贵
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京思海天达知识产权代理有限公司 11203	代理人	沈波
主权项	一种基于移动终端的网页数据采集及归类的方法，其特征在于：该方法包括以下步骤，步骤一，确定所需要解析的内容，这些内容从资源的角度而言包括文字、图片、音频和视频；从形式的角度来而言包括一段文字、一篇文章、一个文章列表、图片列表、音频或视频列表，其解析内容由用户需求决定；步骤二，查找并记录标签元素的路径XPath；XPath用来确定XML文档中的位置，指定XML文档的路径；XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力；HTML可转换成XML，所以对于HTML的元素来说也具有XPath，即根据XPath找到HTML元素；找XPath根据浏览器的扩展工具进行查找，如使用“Google Chrome的审查元素”功能快速查找；步骤三，获取HTML网页源代码；移动客户端通过HTTP协议请求下载HTML文件，网页的获取需要结合多线程及异步操作进行下载，防止堵塞界面，提高性能；步骤四，根据标签元素路径解析HTML标签，同时要解析出所需要的内容；能解析的内容参考步骤一；步骤五，内容归类，或根据所解析出来的内容的链接二次获取详细内容；内容归类依据需求进行归类，比如要解析一个网页中的所有图片，就需要找到所有图片的链接获取，再在移动客户端上使用HTTP协议进行二次请求获取图片内容，保存到移动客户端上；步骤六，显示到移动客户端；上述移动客户端是IOS、Android、或Windows Phone下的移动客户端；使用相对应的移动应用开发工具建立一个工程，然后设计必要的界面，再在后台代码进行处理下载的数据，将所需解析的内容显示到移动客户端上。
地址	100101 北京市朝阳区北四环东路97号