主权项 |
一种基于混合模型的农业领域本体知识云维度优选方法,其特征在于,包括以下步骤:S1、导入数据集U,数据集U中包含n个样本,预设阈值α,根据戴维森堡丁指数DB index确定聚类个数k的最优值K<sub>F</sub>,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>U</mi><mo>=</mo><mfenced open = "[" close = "]"><mtable><mtr><mtd><mrow><msub><mi>X</mi><mn>1</mn></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mn>11</mn></msub><mo>,</mo><msub><mi>x</mi><mn>12</mn></msub><mo>,</mo><msub><mi>x</mi><mn>13</mn></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>X</mi><mn>2</mn></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mn>21</mn></msub><mo>,</mo><msub><mi>x</mi><mn>22</mn></msub><mo>,</mo><msub><mi>x</mi><mn>23</mn></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>X</mi><mn>3</mn></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mn>31</mn></msub><mo>,</mo><msub><mi>x</mi><mn>32</mn></msub><mo>,</mo><msub><mi>x</mi><mn>33</mn></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mn>3</mn><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>...</mo><mo>...</mo></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>X</mi><mi>n</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>n</mi><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>x</mi><mrow><mi>n</mi><mn>2</mn></mrow></msub><mo>,</mo><msub><mi>x</mi><mrow><mi>n</mi><mn>3</mn></mrow></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mi>n</mi><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0001012385320000011.GIF" wi="658" he="390" /></maths>X<sub>1</sub>X<sub>2</sub>X<sub>3</sub>......X<sub>n</sub>为数据集U中包含的n个样本,m为属性数量;S2、获得最佳聚类数K<sub>F</sub>后,采用基于欧氏距离的最小生成树算法计算数据的初始聚类中心;S3、通过相关性对数据进行分析,获得数据的属性和数据的类别之间的相关性的算法模型作为相关‑冗余过滤模型;将数据的属性和类别按相关性从大到小排列获得属性相关性序列S<sub>1</sub>,根据相关‑冗余过滤模型删除属性相关性序列S<sub>1</sub>中两两之间相关性大于阈值的冗余属性获得最相关属性集S<sub>2</sub>;S4、从序列S<sub>2</sub>开始,每次添加进一个当前最优的属性,记录此子集的分类准确性,最终将得到的所有集合进行分类准确性比较,选择使分类准确性最佳的子集,即为相应的云维度的信息。 |