部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,申请号CN200910196540.0-传众专利搜索

发明名称	部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法
摘要	本发明公开了一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法，该方法针对无线广播下的环境进行简化，在用户状态不确定或部分可观测条件下，对可伸缩视频流进行调度，采用部分可观测马尔可夫决策过程建立数据包调度优化模型，它包括状态集合、行动集合、状态转移函数、报酬函数、观察集合、观察概率，给出调度过程，其步骤：(1)假设一个无线广播传输环境模型；(2)对可伸缩视频流的每一帧数据分为层，每层打包为一个数据包，每一帧的数据包集合记为，设立数据包调度优化模型；(3)对可伸缩视频流优化调度。该方法建立可伸缩视频流的数据包调度优化模型，能提高视频流的平均PSNR值，以实现用户整体视频接收质量最佳化。
申请公布号	CN101674482B	申请公布日期	2011.05.11
申请号	CN200910196540.0	申请日期	2009.09.25
申请人	上海大学	发明人	邹君妮;范凤军;彭兵;汪敏
分类号	H04N7/30(2006.01)I	主分类号	H04N7/30(2006.01)I
代理机构	上海上大专利事务所(普通合伙) 31205	代理人	陆聪明
主权项	1.一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法，其特征在于，针对无线广播下的环境进行假设简化，在用户状态不确定或部分可观测的条件下，对可伸缩视频流进行调度，采用部分可观测马尔可夫决策过程建立数据包调度优化模型，该模型包括状态集合、行动集合、状态转移概率、报酬函数、观察集合、观察概率，给出具体的调度过程，其具体步骤如下：(1)、假设一个无线广播传输环境模型，其具体为：(1-1)、AP需要将视频流发送给M个接收者r<sup>1</sup>，r<sup>2</sup>，…，r<sup>M</sup>；(1-2)、AP需要在N个时隙内将L个包的集合L＝{l<sub>1</sub>，l<sub>2</sub>，…，l<sub>L</sub>}发送给接收者；(1-3)、每一帧数据(L个包)的最大发送时间均为N个时隙，N个时隙结束之后，AP转向下一帧数据包的发送；(1-4)、AP转发1个数据包的时间是一个时隙；(1-5)、假设无线信道的丢包率服从参数为p<sub>i</sub>的伯努利分布；(2)、分别对可伸缩视频流的每一帧数据分为L层，每层打包为一个数据包，每一帧的数据包集合记为L＝{l<sub>1</sub>，l<sub>2</sub>，…，l<sub>L</sub>}，设立数据包调度优化模型，具体步骤为：(2-1)、状态集合：在任一给定的时间节点，假设接收者r<sup>m</sup>收到了若干数据包，它是L的一个子集，该子集可以用L位矢量表示，即<img file="FSB00000443866100011.GIF" wi="330" he="59" />其中b∈{0，1}，b<sub>i</sub>＝1表示r<sup>m</sup>拥有数据包l<sub>i</sub>，否则b<sub>i</sub>＝0，共有M个接收者，系统的状态s用一个矩阵来表示：<img file="FSB00000443866100012.GIF" wi="443" he="278" />系统一共有2<sup>M×L</sup>个状态，<img file="FSB00000443866100013.GIF" wi="378" he="57" />表示M个用户拥有的数据包的状态集合，<img file="FSB00000443866100014.GIF" wi="400" he="57" />表示对应状态的概率分布<img file="FSB00000443866100015.GIF" wi="204" he="128" />(2-2)、行动集合：A＝{a<sub>1</sub>，a<sub>2</sub>，…，a<sub>L</sub>}表示M个用户拥有的数据包的行动集合，在每一个时隙内AP选择一个需要发送的数据包，a<sub>l</sub>表示“发送第l个数据包”；(2-3)、状态转移概率：在给定参数为p<sub>i</sub>的伯努利丢包模型下，可以直接计算出状态转移概率P(s<sub>t+1</sub>＝s′\|s<sub>t</sub>＝s，a<sub>t</sub>＝a)，例如，发送两个包到两个接收者，M＝2，L＝2，假设<img file="FSB00000443866100021.GIF" wi="198" he="135" /><img file="FSB00000443866100022.GIF" wi="196" he="156" />在t时刻，系统处在s状态，即r<sup>1</sup>拥有数据包l<sub>1</sub>，r<sup>2</sup>拥有数据包l<sub>2</sub>，此时，AP选择行动a<sub>1</sub>＝“发送l<sub>1</sub>”，那么转移到状态s′的概率是P(s<sub>t+1</sub>＝s′\|s<sub>t</sub>＝s，a<sub>t</sub>＝a)＝0；如果选择行动a<sub>2</sub>＝“发送l<sub>2</sub>”，那么转移到的概率是P(s<sub>t+1</sub>＝s′\|s<sub>t</sub>＝s，a<sub>t</sub>＝a)＝1-p<sub>1</sub>；(2-4)、报酬函数：报酬函数的选择必须使每一时间节点下的瞬时报酬r(s，a)的总和能准确地反应既定目标——视频流质量的最优化，可以把接收者接收到每一个特定数据包所减少的失真作为瞬时报酬，视频质量最优等价于所有M个用户的视频失真总和最小；采取行动a后的状态转移概率已知，瞬时报酬r(s，a)可以通过下式计算<img file="20091019654001000013.GIF" wi="571" he="101" />；(2-5)、观察集合：O表示AP能观察到的观察集合，O＝{ACK，NAK}，o(t)＝{o<sub>1</sub>(t)，o<sub>2</sub>(t)，…，o<sub>M</sub>(t)}表示在t时刻M个用户的联合观察，o<sup>i</sup>(t)∈{ACK，NAK}，其中ACK：确认收到数据包的反馈；NAK：没有收到数据包的反馈；(2-6)、观察概率：观察结果的不确定性，观察结果o在状态s下采取行动a后，用一个条件概率函数Z(s，a，o)＝pr(o \|s，a)来给出；(3)、对可伸缩视频流优化调度：假设初始信念状态为：<img file="FSB00000443866100024.GIF" wi="697" he="196" />设定第2<sup>M×L</sup>个状态为所有接收者成功接收到所有数据包的目标状态，针对某一帧数据包的具体调度步骤如下：(3-1)、部分可观测马尔可夫决策过程的参数输入：初始信念状态<img file="FSB00000443866100025.GIF" wi="476" he="76" />(3-2)、选择需要发送的数据包：在每一个时隙内AP通过下式选择需要发送的数据包，<img file="FSB00000443866100026.GIF" wi="1619" he="178" />其中∏<sub>1</sub>(b<sub>0</sub>，t<sub>0</sub>)表示一步部分可观测马尔可夫决策过程需要发送的最优数据包；<img file="FSB00000443866100031.GIF" wi="283" he="51" />表示t<sub>0</sub>时刻在初始信念为b<sub>0</sub>的情况下，发送第k个数据包后第m个用户获得的一步失真减少；Ω(t)表示在t时刻需要发送的数据包的集合，初始时刻的Ω(t<sub>0</sub>)＝{1，2，…，L}；(3-3)、信念状态更新一次：每发送一个数据包，进行一次联合观察o，o(t)＝{o<sub>1</sub>(t)，o<sub>2</sub>(t)，…，o<sub>M</sub>(t)}，其中o<sub>i</sub>(t)∈{ACK，NAK}，系统发生状态转移，从状态s<sub>i</sub>转移到状态s<sub>j</sub>，根据接收到的反馈的不同，s<sub>j</sub>的取值一共有2<sup>M</sup>种情况，即<img file="FSB00000443866100032.GIF" wi="642" he="104" /><img file="FSB00000443866100033.GIF" wi="44" he="42" />的一次更新过程如下：<img file="FSB00000443866100034.GIF" wi="854" he="102" /><img file="FSB00000443866100035.GIF" wi="354" he="332" /><img file="FSB00000443866100036.GIF" wi="854" he="102" /><img file="FSB00000443866100037.GIF" wi="990" he="334" /><img file="FSB00000443866100038.GIF" wi="919" he="183" /><img file="FSB00000443866100039.GIF" wi="504" he="335" />收益值为：<img file="FSB000004438661000310.GIF" wi="1388" he="102" />H<sub>1</sub>(b<sub>0</sub>，t<sub>0</sub>)表示一步部分可观测马尔可夫决策过程的收益值，每发送一次，概率更新一次，状态的确定度越来越大；(3-4)、判断发送时隙n是否大于最大发送时隙数N，若大于，则转移到下一帧的数据包进行发送；否则接着发送此帧的数据包。经过n步后，部分可观测马尔可夫决策过程的最大失真减少及其最优策略分别如下：<img file="FSB00000443866100041.GIF" wi="1369" he="81" /><img file="FSB00000443866100042.GIF" wi="1426" he="91" />经过N个时隙后转移到下一帧数据包的调度，直至H帧的视频流的数据包调度完成。
地址	200444 上海市宝山区上大路99号