发明名称 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法
摘要 本发明提供了一种基于贝叶斯分类的传统气象数据与感知数据融合的方法,在朴素贝叶斯分类器的基础上,公开了一种1-依赖分类器与属性加权相结合的贝叶斯分类改进算法—ODAWNB(One-dependence Attribute Weighted Naive Bayes)方法,改进现有的朴素贝叶斯算法,适当放松属性间必须相互独立这一限制,在效率和分类精度之间找到一个折中点,最好地完成雷达数据与用户感知数据之间的融合。本发明包括如下步骤:数据预处理,根据训练样本数据构造分类器,利用构造的分类器对待分类的样本<img file="dest_path_image002.GIF" wi="13" he="11" />进行分类。
申请公布号 CN102956023B 申请公布日期 2016.02.03
申请号 CN201210312430.8 申请日期 2012.08.30
申请人 南京信息工程大学 发明人 杜景林;孙晓燕;周杰
分类号 G06Q50/26(2012.01)I;G06F17/30(2006.01)I 主分类号 G06Q50/26(2012.01)I
代理机构 南京众联专利代理有限公司 32206 代理人 顾进
主权项 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法,其特征在于,包括以下步骤:步骤1,首先对数据进行预处理:针对训练样本和待分类样本,对各样本缺失的属性进行补齐和离散化,使各数据项标准化,以便继续其后的运算步骤;步骤2,根据训练样本数据构造分类器:步骤2.1,扫描所有训练样本,设每个训练样本具有属性组{A<sub>1</sub>,A<sub>2</sub>,…,A<sub>n</sub>},训练样本被分为c个类别{y<sub>1</sub>,y<sub>2</sub>,…,y<sub>c</sub>};每个训练样本都具有类别,统计训练样本中,类标签为y<sub>k</sub>(y<sub>k</sub>∈{y<sub>1</sub>,y<sub>2</sub>,…,y<sub>c</sub>},k=1,2,…,c),属性A<sub>i</sub>(A<sub>i</sub>∈{A<sub>1</sub>,A<sub>2</sub>,…,A<sub>n</sub>},<sub>i</sub>=1,2,…,n)取值为d的样本个数#(A<sub>i</sub>=d∧y<sub>k</sub>),形成属性A<sub>i</sub>下的取值d属于类别y<sub>k</sub>的样本数量统计表;步骤2.2,概率参数学习:计算所有的先验概率P(A<sub>i</sub>=d|y<sub>k</sub>),即在类别y<sub>k</sub>中属性A<sub>i</sub>的取值为d的概率,每个属性值d的条件概率<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>A</mi><mi>i</mi></msub><mo>=</mo><mi>d</mi><mo>|</mo><msub><mi>y</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>#</mo><mi>L</mi><mrow><mo>(</mo><msub><mi>A</mi><mi>i</mi></msub><mo>=</mo><msub><mi>d&Lambda;y</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow><msub><mi>S</mi><mi>k</mi></msub></mfrac><mo>,</mo><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>c</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000780977950000011.GIF" wi="1015" he="158" /></maths>计算每个类别中每个属性的每个取值的概率及其估计P(y<sub>k</sub>,x<sub>i</sub>)、P(x<sub>j</sub>|y<sub>k</sub>,x<sub>i</sub>)、<img file="FDA0000780977950000012.GIF" wi="245" he="111" /><img file="FDA0000780977950000013.GIF" wi="546" he="119" />和<img file="FDA0000780977950000014.GIF" wi="285" he="118" />是P(y<sub>k</sub>,x<sub>i</sub>)和P(x<sub>j</sub>|y<sub>k</sub>,x<sub>i</sub>)在训练数据集上的估计,由此形成各属性值的概率表,其中,s<sub>k</sub>是类别y<sub>k</sub>中的训练样本数量;步骤2.3,权值参数学习:根据前述的数量统计表,计算每个属性的权值<img file="FDA0000780977950000015.GIF" wi="918" he="287" />其中n(s<sub>i</sub>)表示训练样本中属性A<sub>i</sub>的取值个数,#(A<sub>i</sub>=d)为训练样本中A<sub>i</sub>取值为d的数量,由此生成各属性值的权值列表;步骤2.4,按照ODAWNB方法构造出分类器:选择训练样本属性组中被其他所有属性依赖的属性,然后用这些属性构造1‑依赖分类器,并将这些分类器对每个类别的预测集成起来,构造出分类算法公式:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>y</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><msub><mi>y</mi><mi>k</mi></msub></munder><mrow><mo>(</mo><munder><mo>&Sigma;</mo><mrow><mi>i</mi><mo>:</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mi>&Lambda;</mi><mi>F</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mi>m</mi></mrow></munder><mover><mi>P</mi><mi>&Lambda;</mi></mover><mo>(</mo><msub><mi>y</mi><mi>k</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><munderover><mo>&Pi;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mover><mi>P</mi><mi>&Lambda;</mi></mover><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>|</mo><msub><mi>y</mi><mi>k</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>W</mi><msub><mi>A</mi><msub><mi>j</mi><mrow><mo>,</mo><mi>d</mi><mo>,</mo><mi>k</mi></mrow></msub></msub></msub></msup><mo>)</mo><mo>,</mo></mrow>]]></math><img file="FDA0000780977950000016.GIF" wi="1934" he="223" /></maths>式中,m是一个阈值,F(x<sub>i</sub>)是属性A<sub>i</sub>取值为x<sub>i</sub>的训练样本的数目,n是属性组中属性的个数,y<sub>k</sub>为类标签,<img file="FDA0000780977950000021.GIF" wi="211" he="111" />和<img file="FDA0000780977950000022.GIF" wi="277" he="117" />是P(y<sub>k</sub>,x<sub>i</sub>)和P(x<sub>j</sub>|y<sub>k</sub>,x<sub>i</sub>)在训练数据集上的估计;步骤3,利用步骤2中构造的分类器对待分类样本X进行分类,将待分类样本X作为输入参数,利用分类器进行计算,计算出一个类别,使得分类器得出的值最大。
地址 210044 江苏省南京市宁六路219号