发明名称 | 用于从网站中提取信息的方法和装置 | ||
摘要 | 本申请涉及用于从网站中提取信息的方法和装置。具体地,在本申请的一个实施方式中,提供了一种用于从网站中提取信息的方法,包括:从网站中获取位于相同深度的URL链接的集合;分析集合中的链接指向的多个web页面的代码,以获取针对多个web页面中每一个web页面的标签树;将针对集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及基于归类规则将网格树中的网格节点中的标签节点进行归类,以从网格树中提取数据。 | ||
申请公布号 | CN103870495B | 申请公布日期 | 2017.04.12 |
申请号 | CN201210543961.8 | 申请日期 | 2012.12.14 |
申请人 | 阿里巴巴集团控股有限公司 | 发明人 | 刘照星 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京国昊天诚知识产权代理有限公司 11315 | 代理人 | 许志勇 |
主权项 | 一种用于从网站中提取信息的方法,包括:从所述网站中获取位于相同深度的URL链接的集合;分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树;将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据。 | ||
地址 | 英属开曼群岛大开曼资本大厦一座四层847号邮箱 |