发明名称 一种网页正文提取比对方法
摘要 本发明公开了一种网页正文提取对比方法,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别。所述步骤A进一步包括以下子步骤:步骤一:网页预处理,构造HTML树;步骤二:对HTML树剪枝;步骤三:获取网页主题;步骤四:提取分块内的字符串内容;步骤五:计算主题S和一个块内内容y的距离;步骤六:比较编辑距离L和max(p,q)。本发明网页正文提取比对方法具有以下优点:能提取正文较短的网页,内容的长短并不会影响选择的正确性。因为无论正文长短都会参与计算,都不会被忽略。对处理<table>嵌套的复杂的网页可以保证每一个<table>标签都能得到一致的处理。
申请公布号 CN106528583A 申请公布日期 2017.03.22
申请号 CN201510793525.X 申请日期 2015.11.14
申请人 孙燕群 发明人 孙燕群
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 重庆百润洪知识产权代理有限公司 50219 代理人 刘立春
主权项 一种网页正文提取对比方法,其特征在于,包括以下步骤:步骤A:基于对于网页特定标签,判断网页是否为正文页;步骤B:对平行网页的识别;步骤C:对中文网页,设定中文标点的个数阈值;通过所述中文标点的个数阈值来判断网页<p>标签中文字:如果其中中文标点的个数大于设定的阈值,则将其加入正文内。
地址 257000 山东省东营市东营区西三路205号2区24号楼4单元302室
您可能感兴趣的专利