发明名称 一种基于熵度量的无线传感器网络离群数据自适应检测方法
摘要 本发明涉及一种基于熵度量的无线传感器网络离群数据自适应检测方法。其特点是,包括如下步骤:第一步,网络模型的建立:假设有Ⅳ个传感器节点随机部署在正方形区域A(l×l)中,传感器网络被分成若干个簇,一个簇中包含了一个簇头和若干个簇成员节点,簇成员只负责采集和传递数据,而簇头除了具备传感节点的功能外,还要对簇内的成员进行管理,建立如下网络模型:本发明提出了节点信息熵以及簇内二维信息熵的概念,可以作为统计特征量分别来描述单节点数据以及簇内全局数据的信息量水平。
申请公布号 CN103747537A 申请公布日期 2014.04.23
申请号 CN201410018157.7 申请日期 2014.01.15
申请人 广东交通职业技术学院 发明人 李怀俊
分类号 H04W84/18(2009.01)I 主分类号 H04W84/18(2009.01)I
代理机构 广州市一新专利商标事务所有限公司 44220 代理人 王德祥
主权项 1.一种基于熵度量的无线传感器网络离群数据自适应检测方法,其特征在于,包括如下步骤:第一步,网络模型的建立:假设有Ⅳ个传感器节点随机部署在正方形区域A(l×l)中,传感器网络被分成若干个簇,一个簇中包含了一个簇头和若干个簇成员节点,簇成员只负责采集和传递数据,而簇头除了具备传感节点的功能外,还要对簇内的成员进行管理,建立如下网络模型:1)观测区域A是一个静态的网络,传感节点和Sink节点在分布后就固定不变,Sink节点位于观测区域附近,节点分布不均匀;2)除Sink节点外,传感节点和簇头节点是同构的,每个节点都有自己的ID号;3)邻近的节点在同一时刻采集到的数据具有相似性,每个节点都可以进行数据融合;4)节点周期性的采集数据,并做出决策是否转发每次的数据;5)节点能够获取自身及其他节点的位置信息,同时按最远距离的10%划定邻域,存储邻域内节点的距离信息;第二步,簇内信息熵及计算:(1)一维信息熵及计算:根据簇内传感节点采集的数据具有趋同性,求出数据选择阈值{L,H},实现数据鉴别,其中,L为数据集下限阈值,H为数据集上限阈值;相反,当采集区域内数据具有趋异性时,可以根据阈值{L,H}对上下限之间的趋同数据进行检测;设C<sub>j</sub>为传感网络A中的某一簇,N为簇C<sub>j</sub>内的采集节点数量,D<sub>n</sub>为簇内节点n所采集的数据组成的时间序列数据集D<sub>n</sub>={d<sub>n1</sub>,d<sub>n2</sub>,...d<sub>nm</sub>},其中,n∈Ⅳ,m∈M,M为节点i数据采集时间窗口的长度;节点离群数据检测算法如下:(1)构造节点数据并查集,将数据集D<sub>n</sub>按照间隔粒度|d<sub>n-max</sub>-d<sub>n-min</sub>|·(1/K)划分为K个数据子集A<sub>k</sub>,A<sub>k</sub>为并查集,满足:A<sub>1</sub>∪A<sub>2</sub>∪,...,∪A<sub>k</sub>=A,且A<sub>i</sub>∩A<sub>j</sub>=Ω,其中i,j=1,...,m且i≠j;(2)求出每个数据子集A<sub>k</sub>数据比例p<sub>k</sub>,此即单位数据子集的信息概率,根据Shannon信息熵定义,可以求出单个节点i的信息熵即平均自信息:<maths num="0001"><![CDATA[<math><mrow><msub><mi>H</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msub><mi>p</mi><mi>k</mi></msub><mn>1</mn><mi>n</mi><mfrac><mn>1</mn><msub><mi>p</mi><mi>k</mi></msub></mfrac><mo>=</mo><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msub><mi>p</mi><mi>k</mi></msub><mn>1</mn><mi>n</mi><msub><mi>p</mi><mi>k</mi></msub><mo>;</mo></mrow></math>]]></maths>(3)应用智能寻优算法对H<sub>i</sub>(x)求取最大值max(H<sub>i</sub>(x)),相应可确定数据选择阈值{d<sub>n-max</sub>,d<sub>n-min</sub>},进而剔除边缘离群数据;(2)二维信息熵及计算:选择簇内的加权数据均值作为数据分布的空间特征量,与节点i的加权数据均值组成特征二元组,记为<img file="FDA0000456955220000024.GIF" wi="161" he="59" />其中d<sub>i</sub>表示节点i的数据均值,<img file="FDA0000456955220000025.GIF" wi="45" he="62" />表示邻域内数据均值即空间特征量,则有联合概率密度:<maths num="0002"><![CDATA[<math><mrow><msub><mi>p</mi><mi>i</mi></msub><mo>=</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msubsup><mi>d</mi><mi>i</mi><mo>&prime;</mo></msubsup><mo>)</mo></mrow><mo>/</mo><mi>N</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中,<img file="FDA0000456955220000022.GIF" wi="199" he="121" />上式能反应节点i的数据与其周围数据分布的综合特征,其中<img file="FDA0000456955220000027.GIF" wi="159" he="65" />为特征二元组<img file="FDA0000456955220000028.GIF" wi="134" he="58" />的数据相异粒度值,N为采集节点数量,定义离散的簇内二维熵为:<maths num="0003"><![CDATA[<math><mrow><msub><mi>H</mi><mn>2</mn></msub><mo>=</mo><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mi>N</mi></munderover><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>1</mn><mi>n</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>设定二维熵的阈值H<sub>0</sub>,当H<sub>2</sub>&lt;H<sub>0</sub>时,认定数据集中存在异变的极值数据,此时可根据算法求出数据选择阈值{L,H},实现数据融合,其中,L为数据集下限阈值,H为数据集上限阈值;相反,当采集区域内数据具有趋异性时,可以根据阈值{L,H}对上下限之间的趋同数据进行检测,汇聚节点确定阈值组{L,H}后,可将各节点数据进行筛选,打包上送,或对区域状态做出判断;第三步,阈值自适应寻优:节点及簇内信息熵的阈值寻优采用粒子群算法,首先初始化一群随机粒子,然后通过迭代找到最优解,在每一次迭代中,粒子通过跟踪两个极值来更新自己:一个是粒子个体最优解p<sub>id</sub>;另一个是整个种群的历史最优解p<sub>gd</sub>,即全局极值,同时根据如下的公式来更新各粒子的速度和位置:<maths num="0004"><![CDATA[<math><mrow><msubsup><mi>v</mi><mi>id</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>=</mo><msub><mi>w</mi><mi>d</mi></msub><mo>*</mo><msubsup><mi>v</mi><mi>id</mi><mi>k</mi></msubsup><mo>+</mo><msub><mi>c</mi><mn>1</mn></msub><msub><mi>r</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mi>p</mi><mi>id</mi></msub><mo>-</mo><msubsup><mi>x</mi><mi>id</mi><mi>k</mi></msubsup><mo>)</mo></mrow><msub><mrow><mo>+</mo><mi>c</mi></mrow><mn>2</mn></msub><msub><mi>r</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>p</mi><mi>gd</mi></msub><mo>-</mo><msubsup><mi>x</mi><mi>id</mi><mi>k</mi></msubsup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msubsup><mi>x</mi><mi>id</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>=</mo><msubsup><mi>x</mi><mi>id</mi><mi>k</mi></msubsup><mo>+</mo><msubsup><mi>v</mi><mi>id</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:i=1,2,...,Ⅳ,N为粒子总数;d=1,2,...,D,D为粒子维数;w<sub>d</sub>为惯性权重;c<sub>1</sub>和c<sub>2</sub>为学习因子,也称加速常数,通常c<sub>1</sub>=c<sub>2</sub>=2;r<sub>1</sub>和r<sub>2</sub>为[0,1]范围内的均匀随机数;<img file="FDA0000456955220000033.GIF" wi="53" he="65" />是第k次迭代第i个粒子飞行速度矢量的第d维分量,<img file="FDA0000456955220000034.GIF" wi="381" he="68" />v<sub>max</sub>是常数,由用户设定用来限制粒子的速度;<img file="FDA0000456955220000035.GIF" wi="53" he="61" />是第k次迭代第i个粒子飞行位置矢量的第d维分量。式(4)右边由三部分组成,第一部分为“陨性”或“动量”部分,反映了粒子的“运动习惯”,代表粒子有维持自己当前速度的趋势;第二部分为“认知”部分,反映了粒子对自身历史经验的保持,代表粒子有向自认最佳位置逼近的趋势;第三部分为“社会”部分,反映了粒子间协同合作与知识共享的群体历史经验,代表粒子有向群体或邻域历史最佳位置逼近的趋势。
地址 510000 广东省广州市天河区天源路789号