发明名称 消除超文本标记语言中有害代码的方法
摘要 本发明公开了一种消除超文本标记语言HTML中有害代码的方法,包括步骤:遍历解析输入的HTML代码过程中:补齐不完整的HTML标签;根据预定义的规则对HTML代码进行过滤;遍历解析经补齐和过滤的HTML代码过程中:对HTML代码根据需求按照预置的对应操作进行修正;根据预置的代码表将HTML代码中浏览器非标准代码转换为标准代码。可以在用户输入包含HTML内容的代码并提交后由服务器进行所述方法的处理,也可以在数据库将存储的包含HTML内容的代码经由服务器发送到客户端的过程中进行所述方法的处理。利用本发明,可以消除超文本标记语言中的有害代码,使网页能够正常显示,从而保障服务器的性能,同时提高服务器的安全性,并在该过程中不影响用户的感受。
申请公布号 CN101192217B 申请公布日期 2010.07.21
申请号 CN200610145970.6 申请日期 2006.11.28
申请人 阿里巴巴集团控股有限公司 发明人 鲍磊;陈波
分类号 G06F17/30(2006.01)I;H04L29/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明
主权项 一种消除超文本标记语言HTML中有害代码的方法,其特征在于,包括步骤:服务器遍历解析输入的HTML代码过程中:服务器补齐不完整的HTML标签;服务器根据预定义的规则对HTML代码进行过滤;服务器遍历解析经补齐和过滤的HTML代码过程中:服务器对HTML代码根据需求按照预置的对应操作进行修正;服务器根据预置的代码表将HTML代码中浏览器非标准代码转换为标准代码;所述根据预定义的规则进行过滤包括:预定义保留规则:保留标签库中存储允许接收的HTML标签,对符合保留标签库的标签做保留处理;预定义去除规则:去除标签库中存储不允许接收的HTML标签,对符合去除标签库的标签做去除处理;根据预定义的保留规则、去除规则对解析结果进行过滤;所述修正步骤包括:根据检验父子关系正确性的需求,根据对应的删除操作,删除父子关系不正确的节点;和/或根据检验超链接正确性的需求,利用正则表达式对不正确的超链接按照对应的操作进行删除,或以普通文本进行处理;和/或根据限制输入的HTML代码内容的需求,根据预置的恶意代码库和/或根据预置的限制词汇库,利用正则表达式删除或替换该恶意代码和/或词汇。
地址 英属开曼群岛大开曼岛