发明名称 |
网页信息的获取方法和装置 |
摘要 |
本申请提出一种网页信息的获取方法和装置,其中,所述网页信息的获取方法,包括:获得待解析网页;以及从待解析网页中提取出待解析关键字,获得待解析关键字在待解析网页中的位置,并根据位置间的关系从待解析网页中获取待解析关键字对应的内容。本申请的网页信息的获取方法,能够避免待解析网页中非主要内容中所包括待解析关键字的干扰导致的解析失败,增强了网页信息获取的抗干扰性,从而既提高了网页信息获取的成功率,也提高了网页信息获取的准确率。此外,能够极大程度上从网页中滤除无用信息,并精准地提取出用户所需要的信息,提升了用户体验。 |
申请公布号 |
CN105630839A |
申请公布日期 |
2016.06.01 |
申请号 |
CN201410643483.7 |
申请日期 |
2014.11.07 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
陈俊文 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
张大威 |
主权项 |
一种网页信息的获取方法,其特征在于,包括:获得待解析网页;以及从所述待解析网页中提取出待解析关键字,获得所述待解析关键字在所述待解析网页中的位置,并根据所述位置间的关系从所述待解析网页中获取所述待解析关键字对应的内容。 |
地址 |
英属开曼群岛大开曼资本大厦一座四层847号邮箱 |