发明名称 基于DOM树匹配的视频网站媒资聚合方法和系统
摘要 本发明公开了一种基于DOM树匹配的视频网站媒资聚合方法和系统,所述方法包括S1)生成配置文件:根据用户的输入生成配置文件,所述配置文件的结构包括基本信息单元、媒资参数单元和DOM子树结构单元;S2)获取HTML文档并生成HTML文档的DOM树:向待聚合的网站请求并获取HTML文档,解析所述HTML文档生成HTML文档的DOM树;S3)媒资信息提取:导入所述匹配模板并生成模板DOM树;对所述HTML文档的DOM树与所述DOM模板树进行模板匹配,从所述HTML文档的DOM树中提取出满足所述最简结构的子节点,然后提取出该子节点中所包含的媒资信息。与现有技术相比,本发明具有更优的兼容性及稳定性。
申请公布号 CN103744987A 申请公布日期 2014.04.23
申请号 CN201410026230.5 申请日期 2014.01.20
申请人 深圳市佳创视讯技术股份有限公司 发明人 韦唯;袁鑫
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳新创友知识产权代理有限公司 44223 代理人 赵烨福
主权项 一种基于DOM树匹配的视频网站媒资聚合方法,其特征在于,包括以下步骤:S1)生成配置文件:根据用户的输入生成配置文件,所述配置文件的结构包括基本信息单元、媒资参数单元和DOM子树结构单元;所述DOM子树结构单元包括匹配模板,所述匹配模板用于存储DOM子树中符合提取条件的媒资所在节点的最简结构;所述媒资参数单元定义有所述匹配模板中存放媒资信息的参数与媒资信息的映射关系;所述基本信息单元用于描述配置文件的基本信息,所述基本信息至少包括媒资类型、DOM子树结构单元个数和媒资个数;S2)获取HTML文档并生成HTML文档的DOM树:向待聚合的网站请求并获取HTML文档,解析所述HTML文档生成HTML文档的DOM树;S3)媒资信息提取:S31)读取所述配置文件,存储所述基本信息和所述基本信息,导入所述匹配模板并生成模板DOM树;S32)对所述HTML文档的DOM树与所述DOM模板树进行模板匹配,从所述HTML文档的DOM树中提取出满足所述最简结构的子节点,然后提取出该子节点中所包含的媒资信息。
地址 518000 广东省深圳市福田区滨河路以南、沙嘴路以东中央西谷大厦15层01-08,16层04-06