发明名称 一种互联网网页转换方法、系统及设备
摘要 本发明适用于互联网信息处理领域,提供了一种互联网网页转换方法、系统及设备,所述方法包括下述步骤:解析读取的互联网网页,将互联网网页解析成文档对象模型树;从解析后的互联网网页中提取主题内容;将提取的主题内容转换输出对应的XHTML网页。在本发明中,在将互联网网页转化为XHTML网页前,从互联网网页中提取用户关注的主题内容,将提取的主题内容转换成XHTML网页,使得转换得到的网页长度和占用空间大为减少,降低了服务器的带宽压力,可以保证网页的主题内容突出,提高用户浏览网页的速度,便于用户搜索或者浏览信息。
申请公布号 CN101246494B 申请公布日期 2011.11.02
申请号 CN200810065597.2 申请日期 2008.03.19
申请人 腾讯科技(深圳)有限公司 发明人 陈虓将
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳中一专利商标事务所 44237 代理人 张全文
主权项 一种互联网网页转换方法,其特征在于,所述方法包括下述步骤:解析读取的互联网网页,将互联网网页解析成文档对象模型树;判断互联网网页的类型;解析互联网网页,提取互联网网页中的主题内容;将提取的主题内容转换输出对应的XHTML网页;其中,当互联网网页的类型为主题型网页时,所述主题内容包括网页的正文块的根元素、标题元素和导航元素;当互联网网页的类型为主题型网页时,所述将提取的主题内容转换输出对应的XHTML网页还包括:保留正文块、以标题元素的父元素为根节点的子树、以导航元素为父元素的子树,以及形式标题;将所述正文块、以标题元素的父元素为根节点的子树、以导航元素为父元素的子树,以及形式标题之外的其余元素从原文档对象模型树中裁剪掉,合成新的文档对象模型树。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室