发明名称 一种获取结构化数据的方法及装置
摘要 本发明公开了一种获取结构化数据的方法及装置,其中,该方法包括:获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地址;抓取与所述目标页面地址相对应的目标页面中的目标页面数据;根据预设的信息提取规则提取所述目标页面数据中的结构化数据,所述信息提取规则为一个或多个子提取规则的集合。该方法简化了信息提取的过程,同时可以及时、高通量、精准地提取目标页面数据中的结构化数据。
申请公布号 CN106095984A 申请公布日期 2016.11.09
申请号 CN201610446125.6 申请日期 2016.06.20
申请人 乐视控股(北京)有限公司;乐视网信息技术(北京)股份有限公司 发明人 方婧
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中誉威圣知识产权代理有限公司 11279 代理人 王思超;俞佳
主权项 一种获取结构化数据的方法,其特征在于,包括:获取页面地址列表,所述页面地址列表中包含一条或多条目标页面地址;抓取与所述目标页面地址相对应的目标页面中的目标页面数据;根据预设的信息提取规则提取所述目标页面数据中的结构化数据,所述信息提取规则为一个或多个子提取规则的集合。
地址 100025 北京市朝阳区姚家园路105号3号楼10层1102