发明名称 |
一种文章类型网页智能抽取系统及其方法 |
摘要 |
一种文章类型网页智能抽取系统,包括:待抽取网页载入模块、包装器查询模块、网页抽取模块、抽取失败网页收集模块、学判断模块、网页学模块、抽取包装器管理模块。 |
申请公布号 |
CN102567530A |
申请公布日期 |
2012.07.11 |
申请号 |
CN201110455156.5 |
申请日期 |
2011.12.31 |
申请人 |
凤凰在线(北京)信息技术有限公司 |
发明人 |
吴华鹏;曾明;厉锟 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京瑞思知识产权代理事务所(普通合伙) 11341 |
代理人 |
李涛 |
主权项 |
一种文章类型网页智能抽取系统,包括:(1)待抽取网页载入模块,定时查询本地索引,发现新索引就按照索引将网页载入系统内存中;(2)包装器查询模块,对所有待抽取的网页,查询具体抽取包装器信息,如果查询到,就按照抽取包装器,进入抽取模块,进行具体抽取,否则,将网页标记为抽取失败;(3)网页抽取模块,从网页中抽取出具体文章信息,借助已有的抽取包装器;(4)抽取失败网页收集模块,将本轮抽取失败的网页收集起来,按网站分类,以方便进行集中学习;(5)学习判断模块,按同网站查询抽取失败网页集合,根据每一网站的失败网页数量,计算此网站本轮抽取成功失败比例,决定是否进入网页学习模块;(6)网页学习模块,对所有失败网页进行机器学习,最后生成新的抽取包装器;(7)抽取包装器管理模块,对系统的抽取包装器进行管理,也即对路径库和模式库进行管理,并提供包装器使用接口给网页抽取模块,提供包装器更新接口给网页学习模块。 |
地址 |
100029 北京市海淀区海淀路165号凤凰会馆605号 |