发明名称 |
一种文档内容获取方法和装置 |
摘要 |
本申请实施例提供了一种文档内容获取方法和装置,涉及网络文档解析技术领域。所述方法包括:读取待解析文档和CSS文档解析表达式;解析所述CSS文档表达式对应的树状层级结构;根据所述树状层级结构对待解析文档进行解析;其中,当所述树状层级结构的一节点包括数组结构标识,则以该节点及之下的各层级子节点为基础,循环从所述待解析文档中获取相应节点的内容。解决了复杂性的不同需要循环调用解析代码的时候,会产生极其复杂的嵌套逻辑,致使代码的可读性很差,开发和维护的复杂度很高的问题,提高了解析效率,提升了代码的可读性和可维护性。 |
申请公布号 |
CN106372042A |
申请公布日期 |
2017.02.01 |
申请号 |
CN201610799872.8 |
申请日期 |
2016.08.31 |
申请人 |
北京奇艺世纪科技有限公司 |
发明人 |
李兆军;蔡龙军;杨留君 |
分类号 |
G06F17/22(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京润泽恒知识产权代理有限公司 11319 |
代理人 |
苏培华 |
主权项 |
一种文档内容获取方法,其特征在于,包括:读取待解析文档和CSS文档解析表达式;所述CSS文档解析表达式包括:以数组结构标识、待解析属性结构标识和特定赋值符标识,针对指定文档对象的父节点及各级子节点分别构建的解析语句;解析所述CSS文档表达式对应的树状层级结构;其中,对于以数组结构标识、待解析属性结构标识和特定赋值符标识,针对指定文档对象的父节点的解析语句,将其解析为包括数组结构标识的父节点;对于以数组结构标识、待解析属性结构标识和特定赋值符标识,针对指定文档对象的子节点的解析语句,将其解析为所述父节点的子节点;根据所述树状层级结构对待解析文档进行解析;其中,当所述树状层级结构的一节点包括数组结构标识,则以该节点及之下的各层级子节点为基础,循环从所述待解析文档中获取相应节点的内容。 |
地址 |
100080 北京市海淀区北一街2号鸿城拓展大厦10、11层 |