发明名称 一种网页正文提取比对装置
摘要 本发明公开了一种网页正文提取对比装置,包括以下模块:模块A:用于基于对于网页特定标签,判断网页是否为正文页;模块B:用于对平行网页的识别;所述模块B进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;所述特征信息提取子模块用于:建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:本发明网页正文提取比对装置能提取正文较短的网页,内容的长短并不会影响选择的正确性。
申请公布号 CN105426388A 申请公布日期 2016.03.23
申请号 CN201510698546.3 申请日期 2015.10.23
申请人 青岛恒波仪器有限公司 发明人 不公告发明人
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京科亿知识产权代理事务所(普通合伙) 11350 代理人 苏雪雪
主权项 一种网页正文提取对比装置,其特征在于,包括以下模块:模块A:用于基于对于网页特定标签,判断网页是否为正文页;模块B:用于对平行网页的识别;所述模块A进一步包括以下子模块:预处理子模块:用于对网页预处理,构造HTML树;获取主题子模块:用于获取网页主题;提取分块子模块:用于提取分块内的字符串内容;计算距离子模块:用于计算主题S和一个块内内容y的距离;比较距离子模块:用于比较编辑距离L和max(p,q)。
地址 266071 山东省青岛市市南区红岛路19号东单元7室