主权项 |
1.一种基于自适应神经网络的视频传输丢包恢复方法,其特征在于该方法包括以下步骤:步骤1.选择视频丢包恢复模型的输入变量和输出变量,确定训练样本;具体方法为: 输入变量包括三类网络参数信息及视频信息,所述的三类网络参数信息分别是4个时延状态值、4个抖动状态值、1个丢包率状态值;所述的视频信息为6个帧复杂度状态值, 输出变量为使用的视频编码码率;步骤2.数据归一化处理,对输入和输出序列中的数据进行归一化处理,具体是对时延、抖动和帧复杂度的状态变量参数进行规格化处理,转化为[0, 1]范围的值;步骤 3.视频传输网络丢包模型使用了基于反向传播自适应神经网络的AHC模型(Actor-Critic模型),具体方法是:通过使用三个神经网络分别用来拟合Critic中的Value(x)、Actor中的μ(x)和α(x),其中μ(x)和α(x)分别表示输出值的均值和标准差;所述的Actor负责产生当前状态条件下的一个动作;所述的Critic则负责学习预测当前状态条件下可能得到的奖励;所述的Value(x)为Critic对环境奖励进行预测的函数;三个神经网络的输入相同,都是规格化之后的变量状态值,输入层共有15个输入单元为Inputl-Inputl5;每个神经网络有一个隐层,隐层有三个神经元组成为Hiden1-Hiden3;输出层有一个输出神经元为Out;网络中的每个神经元的门限函数使用的是可微的sigmoid函数;步骤4.训练BP神经网络的学习过程中;具体方法是:在时刻t-1时Actor选择一个码率,而后会收到环境的反馈奖励信息,此处即是校正后的视频质量信息;此时Critic需要使用Q-learning更新规则,更新自己的奖励预测函数;Q-learning更新规则是预测函数在时刻t-1时预测的偏差,下式所示<img file="2011103413360100001DEST_PATH_IMAGE002.GIF" wi="200" he="29" />其中r<sub>t-1</sub>是时刻t-1的动作所收到的奖励,Value<sub>t</sub>与Value<sub>t-1</sub>分别为时刻t与t-1时Critic对所处环境进行评估后函数Value(x)的输出值,γ是一个学习参数;上式使用预测函数Value(x)当前的预测值来代替将来可以获得的奖励的实际值,然后加上由时刻t-1到时刻t之间所得的奖励,就是时刻t-1时应该得到的奖励;步骤5.测试BP神经网络; 对训练完成的BP神经网络进行测试,将历史数据按照步骤(1)中的网络参数信息以及视频信息组成输入信息,再按照步骤(2)进行归一化处理,这样经过规格化后共得到14个输出数据,另外加上丢包率,共有15个Input分别与outl-outl5相对应;按照步骤(3)直接调用MatLab神经网络工具箱中的sim函数,对测试矩阵进行仿真,其中网络中每个神经元的门限函数都是可微的Sigmoid函数,对应为视频传输网络的丢包预测值;步骤6.数据反归一化处理;输出即为当前状态下的视频码率值进行反归一化处理,使用服从均值为μ(x)、标准差为α(x)的高斯分布随机数发生器来产生输出值。 |