发明名称 |
网页正文的提取方法和装置、网页预览方法和系统 |
摘要 |
本发明提供一种网页正文的提取方法,包括以下步骤:提取网页主体块的数据;从所述网页主体块的数据中筛选与网页正文相关的字符;对所述与网页正文相关的字符进行切割处理和去HTML标签处理,获取各行字符串数组;从所述字符串数组的第一行开始按设定的行块大小逐行扫描;当扫描到所述设定的行块中的字符数大于或者等于设定的字数阈值时,输出所述设定的行块中的字符。本发明还提供一种网页正文的提取装置,可以快速提取网页的正文内容,降低对系统内存的占用率。本发明还提供一种网页预览方法和系统,可以提高网页显示的速度,减少请求网页时的等待时间。 |
申请公布号 |
CN103425765A |
申请公布日期 |
2013.12.04 |
申请号 |
CN201310339555.4 |
申请日期 |
2013.08.06 |
申请人 |
优视科技有限公司 |
发明人 |
梁捷;赵闯 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种网页正文的提取方法,包括以下步骤:提取网页主体块的数据;从所述网页主体块的数据中筛选与网页正文相关的字符;对所述与网页正文相关的字符进行切割处理和去HTML标签处理,获取各行字符串数组;从所述字符串数组的第一行开始按设定的行块大小逐行扫描;当扫描到所述设定的行块中的字符数大于或者等于设定的字数阈值时,输出所述设定的行块中的字符。 |
地址 |
100080 北京市海淀区苏州街29号维亚大厦16层10-20室 |