主权项 |
一种车载网络的移动群智感知方法,其特征在于包括以下步骤:步骤1:移动群智感知服务器向相关区域内的m个车辆发送征集感知报告的环境信息;步骤2:车辆根据自身的感知开销,传输信道状态h和服务器给的报酬范围决定感知精度x;步骤3:初始化每个车辆的Q<sub>i</sub>值矩阵;步骤4:初始化服务器的Q<sub>s</sub>值矩阵;步骤5:车辆i观察目前所处的状态s<sub>i</sub>,按策略π<sub>i</sub>对每个感知精度的概率分布选择具有最大概率的感知精度x<sub>i</sub>;步骤6:服务器观察目前所处的状态s<sub>s</sub>=Χ=[x<sub>i</sub>]<sub>0≤i≤m</sub>,根据策略π<sub>s</sub>对每个价格的概率分布选择具有最大概率的价格y<sub>i</sub>支付给车辆;步骤7:服务器计算效益u<sub>s</sub>:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>u</mi><mi>s</mi></msub><mo>=</mo><mi>β</mi><mo>·</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>y</mi><mi>i</mi></msub><mo>,</mo></mrow>]]></math><img file="FDA0000782812610000011.GIF" wi="441" he="138" /></maths>其中β是服务器从单位精度的感知报告中获得的收益,设置为常数;步骤8:服务器根据公式:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>Q</mi><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>←</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>α</mi><mi>s</mi></msub><mo>)</mo></mrow><msub><mi>Q</mi><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>u</mi><mi>s</mi></msub><mo>+</mo><msub><mi>γ</mi><mi>s</mi></msub><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msup><mi>y</mi><mo>′</mo></msup><mo>∈</mo><mi>B</mi></mrow></munder><msub><mi>Q</mi><mi>s</mi></msub><mo>(</mo><mrow><msup><msub><mi>s</mi><mi>s</mi></msub><mo>′</mo></msup><mo>,</mo><msup><mi>y</mi><mo>′</mo></msup></mrow><mo>)</mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000782812610000012.GIF" wi="1143" he="98" /></maths>更新Q<sub>s</sub>值,Q<sub>s</sub>(s<sub>s</sub>,y)是服务器在状态s<sub>s</sub>下选择y时的Q<sub>s</sub>值,s<sub>s</sub>'是服务器的下一状态,假设服务器的下一状态与当前状态相同,y'是服务器在下一状态选择的行为;步骤9:更新服务器的状态计数C<sub>s</sub>(s<sub>s</sub>)和平均策略<img file="FDA0000782812610000013.GIF" wi="94" he="75" />C<sub>s</sub>(s<sub>s</sub>)←C<sub>s</sub>(s<sub>s</sub>)+1,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mover><mi>π</mi><mo>‾</mo></mover><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><msup><mi>y</mi><mo>′</mo></msup><mo>)</mo></mrow><mo>←</mo><msub><mover><mi>π</mi><mo>‾</mo></mover><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><msup><mi>y</mi><mo>′</mo></msup><mo>)</mo></mrow><mo>+</mo><mfrac><mn>1</mn><mrow><msub><mi>C</mi><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>s</mi></msub><mo>)</mo></mrow></mrow></mfrac><mrow><mo>(</mo><msub><mi>π</mi><mi>s</mi></msub><mo>(</mo><mrow><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><msup><mi>y</mi><mo>′</mo></msup></mrow><mo>)</mo><mo>-</mo><msub><mover><mi>π</mi><mo>‾</mo></mover><mi>s</mi></msub><mo>(</mo><mrow><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><msup><mi>y</mi><mo>′</mo></msup></mrow><mo>)</mo><mo>)</mo></mrow><mo>.</mo></mrow>]]></math><img file="FDA0000782812610000014.GIF" wi="1109" he="140" /></maths>步骤10:更新服务器的策略π<sub>s</sub>:π(s<sub>s</sub>,y)←π(s<sub>s</sub>,y)+Δsb,其中,<img file="FDA0000782812610000021.GIF" wi="1014" he="185" /><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>δ</mi><mrow><mi>s</mi><mi>b</mi></mrow></msub><mo>=</mo><mi>m</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>π</mi><mi>s</mi></msub><mo>(</mo><mrow><msub><mi>s</mi><mi>s</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>,</mo><mfrac><msub><mi>δ</mi><mi>s</mi></msub><mrow><mo>|</mo><mi>B</mi><mo>|</mo><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000782812610000022.GIF" wi="591" he="140" /></maths><img file="FDA0000782812610000023.GIF" wi="1296" he="177" />步骤11:车辆收到服务器给的报酬后,计算即时效益:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>u</mi><mi>i</mi></msub><mo>=</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><mfrac><mrow><msub><mi>D</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>·</mo><msub><mi>x</mi><mi>i</mi></msub></mrow><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mi>h</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000782812610000024.GIF" wi="423" he="145" /></maths>其中,D<sub>i</sub>(x<sub>i</sub>)为车辆i发送感知精度为x<sub>i</sub>的报告时的单位能量消耗,h是当前信道状态;步骤12:车辆根据公式:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>Q</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>←</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>α</mi><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>Q</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>u</mi><mi>i</mi></msub><mo>+</mo><msub><mi>γ</mi><mi>i</mi></msub><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msup><msub><mi>x</mi><mi>i</mi></msub><mo>′</mo></msup><mo>∈</mo><mi>A</mi></mrow></munder><msub><mi>Q</mi><mi>i</mi></msub><mo>(</mo><mrow><msup><msub><mi>s</mi><mi>i</mi></msub><mo>′</mo></msup><mo>,</mo><msup><msub><mi>x</mi><mi>i</mi></msub><mo>′</mo></msup></mrow><mo>)</mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000782812610000025.GIF" wi="1128" he="100" /></maths>更新Q<sub>i</sub>值,Q<sub>i</sub>(s<sub>i</sub>,x<sub>i</sub>)是车辆在状态s<sub>i</sub>下选择x<sub>i</sub>时的Q<sub>i</sub>值,s<sub>i</sub>'为车辆的下一状态,假设车辆的下一状态与当前状态相同,x<sub>i</sub>'是车辆在下一状态选择的行为;步骤13:更新车辆的状态计数C<sub>i</sub>(s<sub>i</sub>)和平均策略<img file="FDA0000782812610000026.GIF" wi="83" he="72" />C<sub>i</sub>(s<sub>i</sub>)←C<sub>i</sub>(s<sub>i</sub>)+1,<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mover><mi>π</mi><mo>‾</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msup><msub><mi>x</mi><mi>i</mi></msub><mo>′</mo></msup><mo>)</mo></mrow><mo>←</mo><msub><mover><mi>π</mi><mo>‾</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msup><msub><mi>x</mi><mi>i</mi></msub><mo>′</mo></msup><mo>)</mo></mrow><mo>+</mo><mfrac><mn>1</mn><mrow><msub><mi>C</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mrow><mo>(</mo><msub><mi>π</mi><mi>i</mi></msub><mo>(</mo><mrow><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msup><msub><mi>x</mi><mi>i</mi></msub><mo>′</mo></msup></mrow><mo>)</mo><mo>-</mo><msub><mover><mi>π</mi><mo>‾</mo></mover><mi>i</mi></msub><mo>(</mo><mrow><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msup><msub><mi>x</mi><mi>i</mi></msub><mo>′</mo></msup></mrow><mo>)</mo><mo>)</mo></mrow><mo>.</mo></mrow>]]></math><img file="FDA0000782812610000027.GIF" wi="1137" he="144" /></maths>步骤14:更新车辆的策略π<sub>i</sub>(s<sub>i</sub>):π<sub>i</sub>(s<sub>i</sub>,x<sub>i</sub>)←π<sub>i</sub>(s<sub>i</sub>,x<sub>i</sub>)+Δsa<sub>i</sub>,其中,<img file="FDA0000782812610000028.GIF" wi="1058" he="196" /><maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msub><mi>δ</mi><mrow><msub><mi>sa</mi><mi>i</mi></msub></mrow></msub><mo>=</mo><mi>m</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>π</mi><mi>i</mi></msub><mo>(</mo><mrow><msub><mi>s</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>,</mo><mfrac><msub><mi>δ</mi><mi>i</mi></msub><mrow><mo>|</mo><mi>A</mi><mo>|</mo><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000782812610000029.GIF" wi="600" he="142" /></maths><img file="FDA0000782812610000031.GIF" wi="1325" he="179" />步骤15:重复步骤5~14,直到满足|Q<sub>i</sub>(s<sub>i</sub>,x<sub>i</sub>)‑Q<sub>i</sub>(s<sub>i</sub>',x<sub>i</sub>')|<0.01,<img file="FDA0000782812610000032.GIF" wi="253" he="68" />且|Q<sub>s</sub>(s<sub>s</sub>,y)‑Q<sub>s</sub>(s<sub>s</sub>',y<sub>s</sub>')|<0.01,即Q<sub>i</sub>(s<sub>i</sub>,x<sub>i</sub>)和Q<sub>s</sub>(s<sub>s</sub>,y)均收敛。 |