发明名称 |
一种网页正文提取比对装置 |
摘要 |
本发明公开了一种网页正文提取对比装置,包括以下模块:模块A:用于基于对于网页特定标签,判断网页是否为正文页;模块B:用于对平行网页的识别;所述模块B进一步包括以下子模块:特征信息提取子模块和支持向量机分类子模块;所述特征信息提取子模块用于:建立特征信息:特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句数信息和数字序列信息;将HTML标签按其在网页布局、显示、链接功能特征划分为结构标签、格式标签和无关标签三类标签:本发明网页正文提取比对装置能提取正文较短的网页,内容的长短并不会影响选择的正确性。 |
申请公布号 |
CN105426388A |
申请公布日期 |
2016.03.23 |
申请号 |
CN201510698546.3 |
申请日期 |
2015.10.23 |
申请人 |
青岛恒波仪器有限公司 |
发明人 |
不公告发明人 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京科亿知识产权代理事务所(普通合伙) 11350 |
代理人 |
苏雪雪 |
主权项 |
一种网页正文提取对比装置,其特征在于,包括以下模块:模块A:用于基于对于网页特定标签,判断网页是否为正文页;模块B:用于对平行网页的识别;所述模块A进一步包括以下子模块:预处理子模块:用于对网页预处理,构造HTML树;获取主题子模块:用于获取网页主题;提取分块子模块:用于提取分块内的字符串内容;计算距离子模块:用于计算主题S和一个块内内容y的距离;比较距离子模块:用于比较编辑距离L和max(p,q)。 |
地址 |
266071 山东省青岛市市南区红岛路19号东单元7室 |