发明名称 一种用于处理页面数据的方法与设备
摘要 本发明的目的是提供一种用于处理页面数据的方法与设备,具体地,获取待处理的目标页面;根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;根据所述节点属性信息,对所述页面节点进行相应的数据处理。其中,与现有技术相比,本发明通过根据与待处理的目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息,进而根据所述节点属性信息,对所述页面节点进行相应的数据处理,实现了根据页面类型对应的多个属性分类模型来提取页面数据,不依赖于页面类型的站点数,提高了提取页面数据的效率。
申请公布号 CN103294781B 申请公布日期 2016.12.28
申请号 CN201310177865.0 申请日期 2013.05.14
申请人 百度在线网络技术(北京)有限公司 发明人 罗威;陈铭敏;邓天生
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京汉昊知识产权代理事务所(普通合伙) 11370 代理人 罗朋;周建华
主权项 一种用于处理页面数据的方法,其中,该方法包括以下步骤:获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点;m根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型;其中,该方法还包括以下步骤:a获取待处理的目标页面;b根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;c根据所述节点属性信息,对所述页面节点进行相应的数据处理。
地址 100085 北京市海淀区上地十街10号百度大厦