发明名称 一种文章类型网页智能抽取系统及其方法
摘要 一种文章类型网页智能抽取系统,包括:待抽取网页载入模块、包装器查询模块、网页抽取模块、抽取失败网页收集模块、学判断模块、网页学模块、抽取包装器管理模块。
申请公布号 CN102567530A 申请公布日期 2012.07.11
申请号 CN201110455156.5 申请日期 2011.12.31
申请人 凤凰在线(北京)信息技术有限公司 发明人 吴华鹏;曾明;厉锟
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京瑞思知识产权代理事务所(普通合伙) 11341 代理人 李涛
主权项 一种文章类型网页智能抽取系统,包括:(1)待抽取网页载入模块,定时查询本地索引,发现新索引就按照索引将网页载入系统内存中;(2)包装器查询模块,对所有待抽取的网页,查询具体抽取包装器信息,如果查询到,就按照抽取包装器,进入抽取模块,进行具体抽取,否则,将网页标记为抽取失败;(3)网页抽取模块,从网页中抽取出具体文章信息,借助已有的抽取包装器;(4)抽取失败网页收集模块,将本轮抽取失败的网页收集起来,按网站分类,以方便进行集中学习;(5)学习判断模块,按同网站查询抽取失败网页集合,根据每一网站的失败网页数量,计算此网站本轮抽取成功失败比例,决定是否进入网页学习模块;(6)网页学习模块,对所有失败网页进行机器学习,最后生成新的抽取包装器;(7)抽取包装器管理模块,对系统的抽取包装器进行管理,也即对路径库和模式库进行管理,并提供包装器使用接口给网页抽取模块,提供包装器更新接口给网页学习模块。
地址 100029 北京市海淀区海淀路165号凤凰会馆605号