发明名称 |
一种互联网网页内容解析方法及装置 |
摘要 |
本发明公开了一种互联网网页内容解析方法,包括:判断待解析的网页是否由模板生成;若该网页是由模板生成,查询到网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并加入到网页模板库中,利用该模板解析上述网页。本发明还提供相应的装置。根据本发明能针对每个网站甚至各不同频道分页,有针对性地进行网页的分析和处理,能够自动分析网页是否由模板生成,并能够自动生成与网页对应的模板,从而利用最适配的模板来解析网页。只对网页中真正的内容部分进行解析,从而减少垃圾信息的干扰,提高网页分析的准确度和精确度,明显提高网页分析的效果。 |
申请公布号 |
CN101916285A |
申请公布日期 |
2010.12.15 |
申请号 |
CN201010259001.X |
申请日期 |
2010.08.20 |
申请人 |
北京新岸线网络技术有限公司 |
发明人 |
郑清芳;章动;鲍东山 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种互联网网页内容解析方法,其特征在于,包括:判断待解析的网页是否由模板生成;若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。 |
地址 |
100084 北京市海淀区中关村东路1号院清华科技园8号楼科技大厦A座17层 |