发明名称 一种网页正文的提取方法
摘要 一种网页正文的提取方法,包括以下步骤:步骤一,通过正则表达式提取网页标题;步骤二,网页预处理;步骤三,动态划分文本块;步骤四,对文本块进行打分,选取最优文本块;步骤五,循环扩大文本块。本发明提取速度很快,无论对新闻门户还是个人博客、论坛社区的各种网页都有很好的提取效果,且准确性高、鲁棒性好。
申请公布号 CN104598577A 申请公布日期 2015.05.06
申请号 CN201510017223.3 申请日期 2015.01.14
申请人 晶赞广告(上海)有限公司 发明人 汤奇峰;刘作涛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海翰信知识产权代理事务所(普通合伙) 31270 代理人 张维东
主权项 一种网页正文的提取方法,其特征在于,包括以下步骤:步骤一,通过正则表达式提取网页标题;步骤二,网页预处理;步骤三,动态划分文本块;步骤四,对文本块进行打分,选取最优文本块;步骤五,循环扩大文本块。
地址 200072 上海市闸北区灵石路695号14幢5层512室