发明名称 |
对小说网页内容选择性抽取方法和装置 |
摘要 |
本发明提供了一种对小说网页内容选择性抽取方法和装置,该方法包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。本发明通过对文本对象模型树结构中的各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。 |
申请公布号 |
CN104331438A |
申请公布日期 |
2015.02.04 |
申请号 |
CN201410575705.6 |
申请日期 |
2014.10.24 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
魏少俊;郑燕琴 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京智汇东方知识产权代理事务所(普通合伙) 11391 |
代理人 |
康正德;范晓斌 |
主权项 |
一种对小说网页内容选择性抽取方法,包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |