发明名称 一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架
摘要 本发明公开一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:网络爬虫从遍历参数和起始URL开始;使用URL库中的第一个URL从网络上下载网页;将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;如果网页没有被拒绝,则将它保存到网页库中;并传递给链接提取;链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;同时提取关键帧,传递给关键帧库;将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;URL库然后将一个未被访问的URL传递给网页提取。
申请公布号 CN104978338A 申请公布日期 2015.10.14
申请号 CN201410138059.7 申请日期 2014.04.08
申请人 宋惟忠 发明人 宋惟忠
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架,其具体步骤如下:1)网络爬虫从遍历参数和起始URL开始;2)使用URL库中的第一个URL从网络上下载网页;3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;4)如果网页没有被拒绝,则将它保存到网页库中;5)并传递给链接提取;6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;7)同时提取关键帧,传递给关键帧库;8)将没有被拒绝的URL进行索引,递给URL库;并与相关关键帧建立映射;9)URL库然后将一个未被访问的URL传递给网页提取。
地址 200060 上海市西康路1518弄12号1305室