发明名称 |
一种确定信息块的位置信息的方法及装置 |
摘要 |
本发明公开了一种确定信息块的位置信息的方法,包括:将待处理网页内容转换成模型树,模型树中包含多个节点;针对每种类型的信息块,在多个节点中搜索该种类型信息块的特征信息,特征信息为用于描述该种类型信息块的表现形式的信息;确定包含特征信息的每个节点的权重值,包含特征信息的每个节点包括第一节点和第二节点,第一节点为直接包含特征信息的节点,第二节点为自身不直接包含特征信息的节点;确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,特定节点包括权重值最大的节点,以及权重值最大的节点下属的所有节点。本申请提供的方案可以通过节点聚类的方式准确的自动定位出信息块的位置信息,提高了信息块定位的效率。 |
申请公布号 |
CN106095854A |
申请公布日期 |
2016.11.09 |
申请号 |
CN201610389942.2 |
申请日期 |
2016.06.02 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
马莘权 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市深佳知识产权代理事务所(普通合伙) 44285 |
代理人 |
王仲凯 |
主权项 |
一种确定信息块的位置信息的方法,其特征在于,包括:将待处理网页内容转换成模型树,所述模型树中包含多个节点;针对每种类型的信息块,在所述多个节点中搜索该种类型信息块的特征信息,所述特征信息为用于描述该种类型信息块的表现形式的信息;确定包含所述特征信息的每个节点的权重值,所述包含特征信息的每个节点包括第一节点和第二节点,所述第一节点为直接包含所述特征信息的节点,所述第二节点为不直接包含所述特征信息的节点;确定特定节点所聚类的信息块的位置信息为该种类型信息块的位置信息,所述特定节点包括权重值最大的节点,以及所述权重值最大的节点下属的所有节点。 |
地址 |
518000 广东省深圳市福田区振兴路赛格科技园2栋东403室 |