发明名称 网页正文内容提取方法及装置
摘要 本发明公开了一种网页正文内容提取方法及装置,该方法包括步骤:将需提取正文内容的网页划分成各内容块;针对划分出的每个内容块分别执行:确定该内容块的链接文本长度及非链接文本长度;并根据确定出的链接文本长度和非链接文本长度,确定该内容块对应的链接文本密度;在链接文本密度不大于预设的第一规定阈值时,确定该内容块为该网页的正文内容。采用本发明技术方案,解决了现有技术中存在的提取网页正文内容准确性较低的问题。
申请公布号 CN102810097A 申请公布日期 2012.12.05
申请号 CN201110147583.7 申请日期 2011.06.02
申请人 高德软件有限公司 发明人 朱海军;姜吉发
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 郭红丽
主权项 一种网页正文内容提取方法,其特征在于,包括:将需提取正文内容的网页划分成各内容块;针对划分出的每个内容块分别执行:确定该内容块的链接文本长度及非链接文本长度;并根据确定出的链接文本长度和非链接文本长度,确定该内容块对应的链接文本密度;在链接文本密度不大于预设的第一规定阈值时,确定该内容块为该网页的正文内容。
地址 102200 北京市昌平区科技园区昌盛路8号B1座1-5层