发明名称 一种互联网网页内容解析方法及装置
摘要 本发明公开了一种互联网网页内容解析方法,包括:判断待解析的网页是否由模板生成;若该网页是由模板生成,查询到网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并加入到网页模板库中,利用该模板解析上述网页。本发明还提供相应的装置。根据本发明能针对每个网站甚至各不同频道分页,有针对性地进行网页的分析和处理,能够自动分析网页是否由模板生成,并能够自动生成与网页对应的模板,从而利用最适配的模板来解析网页。只对网页中真正的内容部分进行解析,从而减少垃圾信息的干扰,提高网页分析的准确度和精确度,明显提高网页分析的效果。
申请公布号 CN101916285A 申请公布日期 2010.12.15
申请号 CN201010259001.X 申请日期 2010.08.20
申请人 北京新岸线网络技术有限公司 发明人 郑清芳;章动;鲍东山
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种互联网网页内容解析方法,其特征在于,包括:判断待解析的网页是否由模板生成;若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。
地址 100084 北京市海淀区中关村东路1号院清华科技园8号楼科技大厦A座17层