发明名称 一种页面资源结构化的方法和装置
摘要 本发明提供了一种页面资源结构化的方法和装置,其包括创建网页内容抓取模块,获取网页对应的html文件;定义Schema文件用以规范结构化后生成的XML结果文档;建立标签映射文件,根据html标签,文字属性,段落属性建立与Schema所定义标签的映射。根据映射关系进行内容识别并生成对应的结构化文档,从而完成页面资源的结构化。传统的网页数据采集一般只涉及到网页元数据的采集,相对于传统的处理方法,该方法及装置能够快速、智能、准确地完成网页元数据及有效内容的采集,且将所采集的内容片段化,结构化,所涉及的内容相比传统方法更加全面,范围更广。
申请公布号 CN105989178A 申请公布日期 2016.10.05
申请号 CN201510100103.X 申请日期 2015.03.06
申请人 上海世纪出版股份有限公司 发明人 施宏俊;周建宝;胡大卫;贾立群;段学俭;周怡;刘懿;吴弃疾;翁志轩;何勇;杨文华;谢冬华;朱丹瑾;陈力勇;易英华;张少杰;程艳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种页面资源结构化的方法,其特征在于,包括如下步骤:a.抓取网页内容,获取网页对应的html文件;b.定义Schema文件用以规范结构化后生成的XML结果文档;c.建立标签映射文件,根据html标签、文字属性、段落属性建立与Schema所定义标签的映射;d.根据映射关系进行内容识别并生成对应的结构化文档,页面资源结构化程序结束。
地址 200235 上海市钦州南路81号
您可能感兴趣的专利