发明名称 一种新闻网页内容的抽取方法
摘要 本发明新闻网页内容的抽取方法,该方法包括:先将页面解析成树结构,然后观察每个树节点,计算该节点及其子节点中纯文字数、长链接数和短链接数,并根据纯文字数占整个页面中的纯文字数的比例,长链接数和短链接数与纯文字数之间的比例,计算出哪个节点是最底层的包含正文的节点,经过关键词广告及版权声明处理器过滤,从而抽取出正文。
申请公布号 CN103136312B 申请公布日期 2016.08.31
申请号 CN201110444156.5 申请日期 2011.12.27
申请人 北京麦克斯泰科技有限公司 发明人 黄靖
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种去除噪音信息的新闻网页内容抽取方法,其特征在于,该方法包括以下步骤:A.解析Html页面,将html转换成标准xml格式,并过滤掉非显示的标记;B.生成文档树结构(DOMTree)并遍历该页面包含的正文数,短链接数和长链接数;C.一层一层计算每个节点的权重,找到权重最大的节点,该节点就是包含正文的节点;其中,步骤C中权值计算方法为:C1计算当前节点下的正文数,长链接和短链接数;C2当前节点的正文数和整个页面正文数的比例是一个成正比的权值WEIGHT1;C3当前节点下的长链接数是一个成反比的权值WEIGHT2;C4当前节点的正文数与当前节点短连接和长链接数的和的比例是一个成正比的权值WEIGHT3;C5计算当前正文中包含的广告和版权信息的关键词出现的次数,它是一个成反比的权重值WEIGHT4。
地址 100081 北京市海淀区中关村南大街9号理工科技大厦818室
您可能感兴趣的专利