发明名称 |
一种互联网网页转换方法、系统及设备 |
摘要 |
本发明适用于互联网信息处理领域,提供了一种互联网网页转换方法、系统及设备,所述方法包括下述步骤:解析读取的互联网网页,将互联网网页解析成文档对象模型树;从解析后的互联网网页中提取主题内容;将提取的主题内容转换输出对应的XHTML网页。在本发明中,在将互联网网页转化为XHTML网页前,从互联网网页中提取用户关注的主题内容,将提取的主题内容转换成XHTML网页,使得转换得到的网页长度和占用空间大为减少,降低了服务器的带宽压力,可以保证网页的主题内容突出,提高用户浏览网页的速度,便于用户搜索或者浏览信息。 |
申请公布号 |
CN101246494B |
申请公布日期 |
2011.11.02 |
申请号 |
CN200810065597.2 |
申请日期 |
2008.03.19 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
陈虓将 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳中一专利商标事务所 44237 |
代理人 |
张全文 |
主权项 |
一种互联网网页转换方法,其特征在于,所述方法包括下述步骤:解析读取的互联网网页,将互联网网页解析成文档对象模型树;判断互联网网页的类型;解析互联网网页,提取互联网网页中的主题内容;将提取的主题内容转换输出对应的XHTML网页;其中,当互联网网页的类型为主题型网页时,所述主题内容包括网页的正文块的根元素、标题元素和导航元素;当互联网网页的类型为主题型网页时,所述将提取的主题内容转换输出对应的XHTML网页还包括:保留正文块、以标题元素的父元素为根节点的子树、以导航元素为父元素的子树,以及形式标题;将所述正文块、以标题元素的父元素为根节点的子树、以导航元素为父元素的子树,以及形式标题之外的其余元素从原文档对象模型树中裁剪掉,合成新的文档对象模型树。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |