发明名称 |
基于深度学的网页区域识别算法 |
摘要 |
一种基于深度学的网页区域识别算法,包括以下步骤:A、以格式化文本,网页的超文本标记语言HTML的源码作为算法输入;B、通过HTML2XML算法提取出网页区域的视觉特征向量;C、通过HTML2XML算法提取出网页区域的文本内容,并通过神经网络语言模型学出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学方法,将上述特征向量作为SDAE的输入向量;E、使用分类算法对SDAE的输出向量进行分类,对向量的分类结果即为该向量所对应的网页区域的识别结果。通过本发明可对网页内的标题区、正文区、导航区等视觉区域进行准确识别,识别准确率达99.99%-100%。 |
申请公布号 |
CN105550278A |
申请公布日期 |
2016.05.04 |
申请号 |
CN201510910397.2 |
申请日期 |
2015.12.10 |
申请人 |
天津海量信息技术有限公司 |
发明人 |
李志杰;周祖胜 |
分类号 |
G06F17/30(2006.01)I;G06F17/21(2006.01)I;G06F17/27(2006.01)I;G06N3/08(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
天津市尚仪知识产权代理事务所(普通合伙) 12217 |
代理人 |
王山 |
主权项 |
一种基于深度学习的网页区域识别算法,包括以下步骤:A、格式化文本:以网页的HTML源码作为算法输入;B、视觉特征处理:将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量;C、文本特征处理:将HTML转化为XML,提取网页区域内的文本;对文本进行分词;通过神经网络语言模型学习出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学习算法,将上述处理后的特征向量作为SDAE的输入向量;E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。 |
地址 |
300020 天津市和平区南马路11号麦购国际大厦23层 |