发明名称 一种基于历史访问记录的网络视频分类方法
摘要 本发明涉及一种基于历史访问记录的网络视频分类方法,属于计算机网络数据挖掘技术领域。首先通过对视频的历史访问记录数据集进行自动分析,抽取出有意义的特征后对其生成待用数据文件,通过所述数据文件将历史访问记录转化为可用于训练的结构化文档,然后用逻辑回归对所结构化文档进行机器学得到预测模型。使用预测模型,根据待预测视频历史访问记录信息的完整程度,对其选用相应的方法进行分类预测。本发明对比现有技术,在减少人工代价的同时,使参与计算的参数更为精简,预测效果更为准确、花费的时间更少。同时,由于可以根据待预测视频历史访问记录信息的完整程度对其选择聚类与否的操作,使其模型的应用更为广泛。
申请公布号 CN103744928A 申请公布日期 2014.04.23
申请号 CN201310743880.7 申请日期 2013.12.30
申请人 北京理工大学 发明人 宿红毅;朱叶;王彩群;闫波;郑宏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种基于历史访问记录的网络视频分类方法,其特征在于,包括以下步骤:步骤一、对视频历史访问记录数据集进行分析,抽取出最精简的属性特征并生成待用数据文件,通过所述待用数据文件将视频历史访问记录转化为待训练结构化文档;具体过程如下:首先,对视频历史访问记录数据集,利用值分析方法去掉取值不正常的数据和属性,包括取值无变化的属性、缺失的或者噪音的数据、去除播放次数小于某一阀值的视频记录等等,得到数据集U;然后,利用基于互信息增益率的启发式属性约简算法,训练对数据集U的属性集进行约简;约简由核开始,逐步选择Z(c,R,D)达到最大的属性加入,直到所选择的属性子集分类能力与整个属性集的分类能力相同时结束,具体步骤如下:第一步,将预测系统S定义为一个四元组:S=(U,A,V,f),其中U={u<sub>1</sub>,u<sub>2</sub>,…,u<sub>n</sub>}是视频对象集,即论域;A是视频的属性集合;<img file="FDA0000449771940000011.GIF" wi="238" he="116" />为属性值的集合,V<sub>a</sub>为属性a的值域;f是U×A→V<sub>a</sub>的映射,它为U中各视频对象的属性指定唯一值;对于预测系统S,将属性集合A分为条件属性集C和决策属性集D,A=C∪D,且C∩D=φ,其中属性集C中包含的元素有视频IDc<sub>1</sub>、标题c<sub>2</sub>、类型c<sub>3</sub>、时长c<sub>4</sub>、URLc<sub>5</sub>、URL信誉度c<sub>6</sub>等;决策属性集合D包括受欢迎与否d;将该做了上述变化的预测系统S命名为决策系统L;由于在S中,对于属性集<img file="FDA0000449771940000015.GIF" wi="126" he="43" />,构造对应的二元等价关系,当<img file="FDA0000449771940000012.GIF" wi="572" he="72" />有a(x)=a(y)},称I<sub>G</sub>为由G构造的不可分辨关系,则对决策系统L=(U,C∪D,V,f),设<img file="FDA0000449771940000016.GIF" wi="122" he="42" />,I<sub>R</sub>和I<sub>D</sub>导出的划分分别为X={X<sub>1</sub>,X<sub>2</sub>,…X<sub>n</sub>}和Y={Y<sub>1</sub>,Y<sub>2</sub>,…Y<sub>n</sub>},则R的熵定义为<img file="FDA0000449771940000013.GIF" wi="583" he="128" />其中p(X<sub>i</sub>)=card(X<sub>i</sub>)/card(U);R相对D的条件熵定义为<maths num="0001"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>D</mi><mo>/</mo><mi>R</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>j</mi></msub><mo>/</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>/</mo><mi>gp</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>j</mi></msub><mo>/</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>其中p(Y<sub>j</sub>/X<sub>i</sub>)=card(Y<sub>j</sub>∩X<sub>i</sub>)/card(X<sub>i</sub>));决策属性集D和条件属性子集R的互信息定义为:W(R;D)=H(D)-H(D/R),属性重要性的度量方法定义为:Z(c,R,D)=(W(R∪{c};D)-W(R;D))/H(c),其中<img file="FDA0000449771940000021.GIF" wi="543" he="163" />p<sub>i</sub>是属性取值为x<sub>i</sub>的对象的个数占总对象数N的比例,设属性c有m种取值x<sub>1</sub>,x<sub>2</sub>.…,x<sub>m</sub>,N为总对象数;第二步,计算条件属性集C和决策属性集D的互信息W(C;D)=H(D)-H(D/C);第三步,计算核R=CORE<sub>D</sub>(C),并计算W(R;D),其中核的计算过程为:设CORE<sub>D</sub>(C)=φ,对于条件属性集C中的所有属性r,如果H({d}/C)&lt;H({d}/C-{r}),则CORE<sub>D</sub>(C)=CORE<sub>D</sub>(C)∪{r};第四步,令C<sub>candidate</sub>=C-R,按Z(c,R,D)=(W(R∪{c};D)-W(R;D))/H(c)计算C<sub>candidate</sub>中各属性的重要性,并选择Z(c,R,D)达到最大的属性c<sub>i</sub>;第五步,令R=R∪{c<sub>i</sub>},若W(C;D)=W(R;D),则终止,并将约简后的属性集所对应的数据集用U′表示;否则转第四步继续执行;之后,对数据集U′进行主成分分析,得到彼此不相关的若干个主成分,具体步骤如下:第一步,对数据集U′进行Z标准化,得到数据集U′′;第二步,对数据集U′′进行主成分分析,得出各主成分的特征值、方差贡献率及累计方差贡献率,其中,对特征值按由大到小的方式进行排序;根据主成分累计方差贡献率大于85%的个数来确定主成分的个数k,根据主成分分析时得到的因子荷载表,写出k个主成分与数据集U′′中的各个属性之间的关系式,如下所示,其中m为数据集U′′中属性的个数:<maths num="0002"><![CDATA[<math><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>Z</mi><mn>1</mn></msub></mtd><mtd><mo>=</mo></mtd><mtd><msub><mi>&beta;</mi><mn>1</mn></msub><msub><mi>c</mi><mn>1</mn></msub></mtd><mtd><mo>+</mo></mtd><mtd><msub><mi>&beta;</mi><mn>2</mn></msub><msub><mi>c</mi><mn>2</mn></msub></mtd><mtd><mo>+</mo></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><mo>+</mo></mtd><mtd><msub><mi>&beta;</mi><mi>m</mi></msub><msub><mi>c</mi><mi>m</mi></msub></mtd></mtr><mtr><mtd><msub><mi>Z</mi><mn>2</mn></msub></mtd><mtd><mo>=</mo></mtd><mtd><msub><mi>&beta;</mi><mrow><mi>m</mi><mo>+</mo><mn>1</mn></mrow></msub><msub><mi>c</mi><mn>1</mn></msub></mtd><mtd><mo>+</mo></mtd><mtd><msub><mi>&beta;</mi><mrow><mi>m</mi><mo>+</mo><mn>2</mn></mrow></msub><msub><mi>c</mi><mn>2</mn></msub></mtd><mtd><mo>+</mo></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><mo>+</mo></mtd><mtd><msub><mi>&beta;</mi><mrow><mn>2</mn><mi>m</mi></mrow></msub><msub><mi>c</mi><mi>m</mi></msub></mtd></mtr><mtr><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd><msub><mi>Z</mi><mi>k</mi></msub></mtd><mtd><mo>=</mo></mtd><mtd><msub><mi>&beta;</mi><mrow><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mi>m</mi><mo>+</mo><mn>1</mn></mrow></msub><msub><mi>c</mi><mn>1</mn></msub></mtd><mtd><mo>+</mo></mtd><mtd><msub><mi>&beta;</mi><mrow><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mi>m</mi><mo>+</mo><mn>2</mn></mrow></msub><msub><mi>c</mi><mn>2</mn></msub></mtd><mtd><mo>+</mo></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><mo>+</mo></mtd><mtd><msub><mi>&beta;</mi><mi>km</mi></msub><msub><mi>c</mi><mi>m</mi></msub></mtd></mtr></mtable></mfenced></math>]]></maths>步骤二、用逻辑回归方法,对所述结构化文档进行机器学习,得到预测模型,具体过程如下:对步骤二得到的各主成分值进行二元逻辑回归分析,得出逻辑回归模型:<maths num="0003"><![CDATA[<math><mrow><mi>p</mi><mo>=</mo><mfrac><msup><mi>e</mi><mrow><msub><mi>&alpha;</mi><mn>1</mn></msub><msub><mi>z</mi><mn>1</mn></msub><mo>+</mo><msub><mi>&alpha;</mi><mn>2</mn></msub><msub><mi>z</mi><mn>2</mn></msub><mo>+</mo><msub><mi>&alpha;</mi><mn>3</mn></msub><msub><mi>z</mi><mn>3</mn></msub><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><msub><mi>&alpha;</mi><mi>k</mi></msub><msub><mi>z</mi><mi>k</mi></msub></mrow></msup><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><msub><mi>&alpha;</mi><mn>1</mn></msub><msub><mi>z</mi><mn>1</mn></msub><mo>+</mo><msub><mi>&alpha;</mi><mn>2</mn></msub><msub><mi>z</mi><mn>2</mn></msub><mo>+</mo><msub><mi>&alpha;</mi><mn>3</mn></msub><msub><mi>z</mi><mn>3</mn></msub><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><msub><mi>&alpha;</mi><mi>k</mi></msub><msub><mi>z</mi><mi>k</mi></msub></mrow></msup></mrow></mfrac></mrow></math>]]></maths>其中α<sub>1</sub>,α<sub>2</sub>,…,α<sub>k</sub>为预测模型经过训练后得到的参数,P的值越接近于1,说明待分类视频越受欢迎,P越接近于0,说明待分类视频为越不受欢迎。若p≥0.5,则待分类视频为受欢迎视频;若p<0.5,则待分类视频为不受欢迎视频;步骤三、使用上述预测模型对视频进行欢迎与否的测试,具体过程如下:首先,判断视频历史访问记录的信息完整性,如果待预测视频是新视频,即该视频的历史访问记录不存在,根据视频的特征信息计算tf-idf值,用tf-idf矩阵作为聚类模型的输入,得到新视频的最相似视频,并将其历史访问记录信息设为新视频的历史访问记录信息;如果待预测视频不是新视频,直接进行下一步;然后,对待预测视频的历史访问记录数据进行相应的转化,即进行特征抽取;最后,使用预测模型对其进行欢迎与否的分类。
地址 100081 北京市海淀区中关村南大街5号