发明名称 |
一种获取结构化数据的方法及装置 |
摘要 |
本发明公开了一种获取结构化数据的方法及装置,其中,该方法包括:获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地址;抓取与所述目标页面地址相对应的目标页面中的目标页面数据;根据预设的信息提取规则提取所述目标页面数据中的结构化数据,所述信息提取规则为一个或多个子提取规则的集合。该方法简化了信息提取的过程,同时可以及时、高通量、精准地提取目标页面数据中的结构化数据。 |
申请公布号 |
CN106095984A |
申请公布日期 |
2016.11.09 |
申请号 |
CN201610446125.6 |
申请日期 |
2016.06.20 |
申请人 |
乐视控股(北京)有限公司;乐视网信息技术(北京)股份有限公司 |
发明人 |
方婧 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中誉威圣知识产权代理有限公司 11279 |
代理人 |
王思超;俞佳 |
主权项 |
一种获取结构化数据的方法,其特征在于,包括:获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地址;抓取与所述目标页面地址相对应的目标页面中的目标页面数据;根据预设的信息提取规则提取所述目标页面数据中的结构化数据,所述信息提取规则为一个或多个子提取规则的集合。 |
地址 |
100025 北京市朝阳区姚家园路105号3号楼10层1102 |