发明名称 一种文档内容获取方法和装置
摘要 本申请实施例提供了一种文档内容获取方法和装置,涉及网络文档解析技术领域。所述方法包括:读取待解析文档和CSS文档解析表达式;解析所述CSS文档表达式对应的树状层级结构;根据所述树状层级结构对待解析文档进行解析;其中,当所述树状层级结构的一节点包括数组结构标识,则以该节点及之下的各层级子节点为基础,循环从所述待解析文档中获取相应节点的内容。解决了复杂性的不同需要循环调用解析代码的时候,会产生极其复杂的嵌套逻辑,致使代码的可读性很差,开发和维护的复杂度很高的问题,提高了解析效率,提升了代码的可读性和可维护性。
申请公布号 CN106372042A 申请公布日期 2017.02.01
申请号 CN201610799872.8 申请日期 2016.08.31
申请人 北京奇艺世纪科技有限公司 发明人 李兆军;蔡龙军;杨留君
分类号 G06F17/22(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京润泽恒知识产权代理有限公司 11319 代理人 苏培华
主权项 一种文档内容获取方法,其特征在于,包括:读取待解析文档和CSS文档解析表达式;所述CSS文档解析表达式包括:以数组结构标识、待解析属性结构标识和特定赋值符标识,针对指定文档对象的父节点及各级子节点分别构建的解析语句;解析所述CSS文档表达式对应的树状层级结构;其中,对于以数组结构标识、待解析属性结构标识和特定赋值符标识,针对指定文档对象的父节点的解析语句,将其解析为包括数组结构标识的父节点;对于以数组结构标识、待解析属性结构标识和特定赋值符标识,针对指定文档对象的子节点的解析语句,将其解析为所述父节点的子节点;根据所述树状层级结构对待解析文档进行解析;其中,当所述树状层级结构的一节点包括数组结构标识,则以该节点及之下的各层级子节点为基础,循环从所述待解析文档中获取相应节点的内容。
地址 100080 北京市海淀区北一街2号鸿城拓展大厦10、11层