发明名称 一种文件切片方法及所切片段流行度的计算方法
摘要 本发明提供一种基于文件时域访问特征的文件切片方法和片段流行度的计算方法。其通过对文件在时域上访问特征进行分析,估计出该文件在不同时间段被点播的概率,根据用户点播倾向将媒体文件切分成不等长的数据片段,然后计算各个所切片段的流行度,从而获得文件中不同时间段较准确的流行度信息。本发明的基于文件时域访问特征的文件切片方法和片段流行度的计算方法,针对文件时域访问特征的不同,对大文件进行合理划分,以片段为单位进行副本放置,将大文件切分成变长的片段,使网络有针对性的对重要的片段提供更多服务,提高了空间的利用率,同时也增加了用户访问内容的命中率。
申请公布号 CN101645923B 申请公布日期 2012.09.05
申请号 CN200910082349.3 申请日期 2009.04.14
申请人 中国科学院声学研究所 发明人 尤佳莉;王劲林;王玲芳;邓浩江
分类号 H04L29/08(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉
主权项 一种基于文件时域访问特征的文件切片方法,其特征在于,通过对文件在时域上访问特征进行分析,估计出该文件在不同时间段被点播的概率,根据用户点播倾向将媒体文件切分成不等长的数据片段,具体包括如下步骤:1)获取大量用户对文件的历史访问信息;2)根据用户对文件f的历史访问数据,拟合估计得到用户对某个文件f的访问规律f(x);3)利用概率累积相等的方式进行文件切片,假设每个数据片段block的积分为ave_culSeg,当对文件f进行切分时,从文件头开始,向后寻找使得当前数据片段block的概率积分为ave_culSeg的切分点segPoint_1,得到block_1,同样,从segPoint_1开始,寻找下一个符合积分条件的切分点segPoint_2,得到block_2,以此类推,直至将整个f切分成block序列为止,从而将文件f切分成不等长的block序列{block_1,block_2,...,block_n}。
地址 100190 北京市海淀区北四环西路21号中国科学院声学研究所