发明名称 一种视频内容及内容源爬取方法
摘要 本发明公开了一种视频内容及内容源爬取方法,该方法的基本原理为:首先给每类视频内容设定初始爬取周期,定时从内容源爬取内容并缓存,然后根据内容热度和内容更新率动态调整其爬取周期,当内容的热度增高或更新率增高时,将缩短其爬取周期;相反,当热度降低或更新率降低时,将增大其爬取周期;所述的“每类视频内容”的分类依据为内容元数据,包括但不限于:内容主题、内容名称、内容标签等。通过实施本发明,提高了内容爬取流量的有效性,并提高了内容请求的命中率。本发明的技术方案从多个内容源(如互联网视频网站)有效地爬取内容,缓存在本地,并为本地用户提供视频服务,在不提高爬取流量的情况下,提高内容的请求命中率。
申请公布号 CN103945278A 申请公布日期 2014.07.23
申请号 CN201310022725.6 申请日期 2013.01.21
申请人 中国科学院声学研究所;上海尚恩华科网络科技股份有限公司 发明人 徐开诚;脱立恒;刘学;靳巾;江佳伟
分类号 H04N21/63(2011.01)I;H04N21/432(2011.01)I;G06F17/30(2006.01)I 主分类号 H04N21/63(2011.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉;杨青
主权项 一种视频内容爬取方法,所述方法包含:步骤101)为每类视频内容设定初始爬取周期,按设定的爬取周期从内容源爬取内容并缓存;步骤102)根据每类视频内容的内容热度和内容源的内容更新率动态调整其爬取周期,并依据更新后的爬取周期对内容源进行内容爬取和缓存;其中,所述动态调整爬取周期的原则为:当某类视频内容的本地热度增高或内容源更新率增高时,就缩短该类视频内容的爬取周期;而当某类视频内容的本地热度降低或内容源更新率降低时,则增大该类视频内容的爬取周期。
地址 100190 北京市海淀区北四环西路21号