发明名称 基于深度学的网页区域识别算法
摘要 一种基于深度学的网页区域识别算法,包括以下步骤:A、以格式化文本,网页的超文本标记语言HTML的源码作为算法输入;B、通过HTML2XML算法提取出网页区域的视觉特征向量;C、通过HTML2XML算法提取出网页区域的文本内容,并通过神经网络语言模型学出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学方法,将上述特征向量作为SDAE的输入向量;E、使用分类算法对SDAE的输出向量进行分类,对向量的分类结果即为该向量所对应的网页区域的识别结果。通过本发明可对网页内的标题区、正文区、导航区等视觉区域进行准确识别,识别准确率达99.99%-100%。
申请公布号 CN105550278A 申请公布日期 2016.05.04
申请号 CN201510910397.2 申请日期 2015.12.10
申请人 天津海量信息技术有限公司 发明人 李志杰;周祖胜
分类号 G06F17/30(2006.01)I;G06F17/21(2006.01)I;G06F17/27(2006.01)I;G06N3/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市尚仪知识产权代理事务所(普通合伙) 12217 代理人 王山
主权项 一种基于深度学习的网页区域识别算法,包括以下步骤:A、格式化文本:以网页的HTML源码作为算法输入;B、视觉特征处理:将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量;C、文本特征处理:将HTML转化为XML,提取网页区域内的文本;对文本进行分词;通过神经网络语言模型学习出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学习算法,将上述处理后的特征向量作为SDAE的输入向量;E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。
地址 300020 天津市和平区南马路11号麦购国际大厦23层