发明名称 |
网页正文内容提取方法及装置 |
摘要 |
本发明公开了一种网页正文内容提取方法及装置,该方法包括步骤:将需提取正文内容的网页划分成各内容块;针对划分出的每个内容块分别执行:确定该内容块的链接文本长度及非链接文本长度;并根据确定出的链接文本长度和非链接文本长度,确定该内容块对应的链接文本密度;在链接文本密度不大于预设的第一规定阈值时,确定该内容块为该网页的正文内容。采用本发明技术方案,解决了现有技术中存在的提取网页正文内容准确性较低的问题。 |
申请公布号 |
CN102810097A |
申请公布日期 |
2012.12.05 |
申请号 |
CN201110147583.7 |
申请日期 |
2011.06.02 |
申请人 |
高德软件有限公司 |
发明人 |
朱海军;姜吉发 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
郭红丽 |
主权项 |
一种网页正文内容提取方法,其特征在于,包括:将需提取正文内容的网页划分成各内容块;针对划分出的每个内容块分别执行:确定该内容块的链接文本长度及非链接文本长度;并根据确定出的链接文本长度和非链接文本长度,确定该内容块对应的链接文本密度;在链接文本密度不大于预设的第一规定阈值时,确定该内容块为该网页的正文内容。 |
地址 |
102200 北京市昌平区科技园区昌盛路8号B1座1-5层 |