发明名称 一种视频URL抓取方法、装置及终端设备
摘要 本发明公开了一种视频URL抓取方法、装置及终端设备。其中,该方法包括:从web页面上提取视频标签;对所述视频标签的类型进行识别;根据所述视频标签的类型提取视频URL。
申请公布号 CN103455602B 申请公布日期 2017.03.29
申请号 CN201310395725.0 申请日期 2013.09.03
申请人 小米科技有限责任公司 发明人 徐琰;张少伟;左景龙
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种视频URL抓取方法,其特征在于,该方法包括:解析web页面,判断所述web页面是否包含video标签;当所述web页面包含video标签,从web页面上提取视频标签;对所述视频标签的类型进行识别;根据所述视频标签的类型提取视频URL;从web页面上提取视频标签包括:扫描web页面的DOM树,找到所有文字节点;从所有文字节点中提取包括有预设特征文字的文字节点;将包括有预设特征文字的文字节点的父节点作为所述视频标签;根据所述视频标签的类型提取视频URL包括:通过所述视频标签提取第一URL;通过所述第一URL进行网络访问,获取包括MIME Type的协议头;当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;当所述第一URL为视频URL时,则获取所述视频URL;当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
地址 100085 北京市海淀区清河中街68号华润五彩城购物中心二期13层