发明名称 基于时序差分TD强化学的无线传感网络入侵检测方法
摘要 本发明专利公开了一种基于TD (temporal difference,时序差分)强化学的无线传感网络入侵检测方法,其是通过TD强化学对传感器节点的剩余能量进行预测,用于检测具有能量耗尽特征的攻击行为方式,并结合平滑时间窗判定方法将其应用于分簇路由结构的无线传感网络入侵检测模型中。本发明所使用的数据均是在传输过程中节点采集的状态变量,用于强化学的数据无需重复采集,计算和能量开销小,并且可以通过校对强化学的学率以调节能量预测的精度,对具有耗尽能力特征的攻击行为具有良好的检测率,具有广泛的应用价值。
申请公布号 CN103391548B 申请公布日期 2016.05.25
申请号 CN201310302735.5 申请日期 2013.07.15
申请人 河海大学常州校区 发明人 范新南;倪建军;李敏;卞辉
分类号 H04W12/12(2009.01)I;H04W84/18(2009.01)I 主分类号 H04W12/12(2009.01)I
代理机构 南京纵横知识产权代理有限公司 32224 代理人 董建林
主权项 基于时序差分TD强化学习的无线传感网络入侵检测方法,其特征在于,其步骤包括:(a)、将无线传感网络传感器节点抽象成具有一定属性的自治Agent,包括簇头节点、簇成员节点和汇聚节点;使时序差分TD强化学习与Agent概念相结合,并对时序差分TD强化学习的奖赏函数进行改进;(b)、将改进的时序差分TD强化学习应用于无线传感网络传感器节点的剩余能量预测,并通过调整学习率α使得时序差分TD能量预测在误差允许的范围内,记录稳定后的学习率α;(c)、将时序差分TD能量预测与平滑时间窗相结合加入入侵检测模块中;(d)、将入侵检测模块应用于分簇路由结构的无线传感网络传感器节点中,并在簇头节点形成时自动启动,用于检测簇内成员节点的异常能量状态;(e)、进行节点的剩余能量的计算与预测;(f)、当预测的节点剩余能量值与实际采集的剩余能量值超过一设定误差时,将其判为异常节点;将异常节点的状态数据存入异常缓冲区,并通过平滑时间窗模块统计其异常行为出现的次数,当超出规定的频率阈值时将其判为入侵节点;(g)、基站对簇头节点采取同样的预测检测机制以检测簇头节点的安全性;在所述步骤(a)中,对TD强化学习的奖赏函数进行改进,改进的奖赏函数公式如下:r<sub>k</sub><sup>(i)</sup>=E<sub>i,j</sub>(m,d)=mE<sub>elec</sub>+mE<sub>α</sub>d<sup>θ</sup>,θ=2   (1)式中,在第k次数据传输时,E<sub>i,j</sub>(m,d)为Agent i发送m bit数据至距离为d的Agent j处所需要的能量,E<sub>elec</sub>,E<sub>a</sub>为已知常量,E<sub>elec</sub>表示节点在传输和接收模块处理1bit数据所消耗的能量,E<sub>a</sub>为距离传播能量放大系数;d表示为两节点间的欧式距离,m为传输数据包文件的大小,θ为常数;在所述步骤(b)中,预测剩余能量的计算方式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mo>{</mo><mtable><mtr><mtd><mrow><msub><mi>E</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>E</mi><mi>k</mi></msub><mo>+</mo><mi>&alpha;</mi><mrow><mo>(</mo><msup><msub><mi>r</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>+</mo><msub><mi>&gamma;E</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>E</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>k</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mn>...</mn></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>E</mi><mn>1</mn></msub><mo>=</mo><msub><mi>E</mi><msub><mi>C</mi><mn>1</mn></msub></msub></mrow></mtd><mtd><mrow></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000873257240000021.GIF" wi="1356" he="199" /></maths>其中,E<sub>k+1</sub>表示节点i在第k次传输后的预测能量剩余值,E<sub>k</sub>为第k‑1次传输后的实际剩余能量,E<sub>1</sub>为节点的初始能量值,<img file="FDA0000873257240000022.GIF" wi="70" he="69" />为节点i的初始剩余能量,α∈(0,1)为学习率,γ∈[0,1]为延迟回报的比例因子,奖赏函数r<sub>k</sub><sup>(i)</sup>已由式(1)给出;通过调整α来减小预测值与真实值之间的误差,定义误差值为:Δe=|E<sub>prediction</sub>‑E<sub>actual</sub>|≤T<sub>1</sub>   (3)其中,E<sub>prediction</sub>为TD强化学习预测值,E<sub>actual</sub>为实际采集到的真实值,T<sub>1</sub>为预先设置好的误差阈值。
地址 213022 江苏省常州市晋陵北路200号