发明名称 | 一种网页正文的提取方法 | ||
摘要 | 一种网页正文的提取方法,包括以下步骤:步骤一,通过正则表达式提取网页标题;步骤二,网页预处理;步骤三,动态划分文本块;步骤四,对文本块进行打分,选取最优文本块;步骤五,循环扩大文本块。本发明提取速度很快,无论对新闻门户还是个人博客、论坛社区的各种网页都有很好的提取效果,且准确性高、鲁棒性好。 | ||
申请公布号 | CN104598577A | 申请公布日期 | 2015.05.06 |
申请号 | CN201510017223.3 | 申请日期 | 2015.01.14 |
申请人 | 晶赞广告(上海)有限公司 | 发明人 | 汤奇峰;刘作涛 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人 | 张维东 |
主权项 | 一种网页正文的提取方法,其特征在于,包括以下步骤:步骤一,通过正则表达式提取网页标题;步骤二,网页预处理;步骤三,动态划分文本块;步骤四,对文本块进行打分,选取最优文本块;步骤五,循环扩大文本块。 | ||
地址 | 200072 上海市闸北区灵石路695号14幢5层512室 |