发明名称 从网页中抽取数据的方法和装置
摘要 本发明提供了从网页中抽取数据方法和装置,其中,该方法包括:步骤A,定义网页中节点的划分规则,根据节点划分规则和对训练样本网页的解析,获取用于抽取网页中数据的约束规则集合;步骤B,利用所述约束规则集合从待抽取的网页中抽取数据。采用本发明,能够避免通过编写正则表达式的方式抽取数据,节省人力资源。
申请公布号 CN102456050B 申请公布日期 2014.04.09
申请号 CN201010527635.9 申请日期 2010.10.27
申请人 中国移动通信集团四川有限公司 发明人 郑长松;肖巍;王全礼;杨俊拯
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 谢安昆;宋志强
主权项 一种从网页中抽取数据的方法,其特征在于,该方法包括: 步骤A,定义网页中节点的划分规则,根据节点划分规则和对训练样本网页的解析,获取用于抽取网页中数据的约束规则集合;其中,所述获取包括:步骤A1,根据节点划分规则,生成每一训练样本网页对应的第一约束条件集合和第二约束条件集合;步骤A2,依据第一约束条件集合和第二约束条件集合分别生成对应的约束规则集合; 所述步骤A1包括: 步骤A11,针对每一训练样本网页,将该训练样本网页解析成DOM树,并将该DOM树转换成节点集合U; 步骤A12,按照定义的不同节点划分规则,将节点集合U划分成不同的划分集合; 步骤A13,根据所述划分集合,确定指定抽取维度集合对应的节点存放集合U1中每个节点的约束集合,将节点存放集合UI中所有节点的所有约束集合作为该训练样本网页对应的第一约束条件集合; 步骤A14,针对节点存放集合UI中任意两个节点,计算该两个节点对应的两个维度在至少一个属性上的二元关系,将计算结果记录在该训练样本网页对应的第二约束条件集合; 步骤B,利用所述约束规则集合从待抽取的网页中抽取数据。
地址 610041 四川省成都市高新区高鹏大道10号