发明名称 获取网页中的感兴趣信息的方法及相关装置
摘要 本发明公开了一种获取网页中的感兴趣信息的方法及相关装置,用以解决现有技术中无法从大量根据不同模板生成的网页中,精确有效地提取感兴趣信息的问题。该方法包括:根据DOM树的拓扑结构,对各训练网页进行聚类,获得至少一个DOM树具有相似的拓扑结构的训练网页子集合;对每个训练网页子集合中各个训练网页的DOM树分别进行合并;确定合并后的DOM树中的备选节点;获取信息时,从各训练网页子集合中选择出一个训练网页子集合,并将待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。
申请公布号 CN102253937B 申请公布日期 2013.03.13
申请号 CN201010176808.7 申请日期 2010.05.18
申请人 阿里巴巴集团控股有限公司 发明人 丁绍顺
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 郭润湘
主权项 一种获取网页中的感兴趣信息的方法,其特征在于,包括:根据DOM树的拓扑结构,对训练网页集合中各训练网页进行聚类,获得至少一个DOM树具有相似的拓扑结构的训练网页子集合;对每个所述训练网页子集合中各个训练网页的DOM树分别进行合并,合并后的DOM树中的每个节点对应的文本集合中包括该训练网页子集合中各个训练网页的DOM树中与该节点位于相同路径的节点对应的文本;确定合并后的DOM树中的备选节点,所述备选节点对应的文本集合中不同文本的数量与该文本集合中包含文本总数的比值超过设定阈值;获取信息时,从各训练网页子集合中选择出一个训练网页子集合,该选择出的训练网页子集合对应的合并后的DOM树与待获取信息的网页的DOM树的拓扑结构最相似,将待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱