发明名称 |
一种页面资源结构化的方法和装置 |
摘要 |
本发明提供了一种页面资源结构化的方法和装置,其包括创建网页内容抓取模块,获取网页对应的html文件;定义Schema文件用以规范结构化后生成的XML结果文档;建立标签映射文件,根据html标签,文字属性,段落属性建立与Schema所定义标签的映射。根据映射关系进行内容识别并生成对应的结构化文档,从而完成页面资源的结构化。传统的网页数据采集一般只涉及到网页元数据的采集,相对于传统的处理方法,该方法及装置能够快速、智能、准确地完成网页元数据及有效内容的采集,且将所采集的内容片段化,结构化,所涉及的内容相比传统方法更加全面,范围更广。 |
申请公布号 |
CN105989178A |
申请公布日期 |
2016.10.05 |
申请号 |
CN201510100103.X |
申请日期 |
2015.03.06 |
申请人 |
上海世纪出版股份有限公司 |
发明人 |
施宏俊;周建宝;胡大卫;贾立群;段学俭;周怡;刘懿;吴弃疾;翁志轩;何勇;杨文华;谢冬华;朱丹瑾;陈力勇;易英华;张少杰;程艳 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种页面资源结构化的方法,其特征在于,包括如下步骤:a.抓取网页内容,获取网页对应的html文件;b.定义Schema文件用以规范结构化后生成的XML结果文档;c.建立标签映射文件,根据html标签、文字属性、段落属性建立与Schema所定义标签的映射;d.根据映射关系进行内容识别并生成对应的结构化文档,页面资源结构化程序结束。 |
地址 |
200235 上海市钦州南路81号 |