发明名称 对小说网页内容选择性抽取方法和装置
摘要 本发明提供了一种对小说网页内容选择性抽取方法和装置,该方法包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。本发明通过对文本对象模型树结构中的各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。
申请公布号 CN104331438A 申请公布日期 2015.02.04
申请号 CN201410575705.6 申请日期 2014.10.24
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 魏少俊;郑燕琴
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京智汇东方知识产权代理事务所(普通合伙) 11391 代理人 康正德;范晓斌
主权项 一种对小说网页内容选择性抽取方法,包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)
您可能感兴趣的专利