发明名称 一种基于混合模型的农业领域本体知识云维度优选方法
摘要 本发明公开了一种基于混合模型的农业领域本体知识云维度优选方法,通过聚类个数的优选,对属性与类属性之间进行相关性测度,通过相关性值的大小对数据进行过滤获得相关属性集,同时对相关属性集进行冗余性测度,删除其中相互冗余的属性得到最相关属性集,并通过对最相关属性集的准确性测试,获得分类准确性最佳的子集作为相应的云维度的信息。本发明所提出的基于混合模型的云维度优选方法能够实现农业领域数据库中的带类标识属性数据和无类标识属性数据的云维度优选,去除其中的不相关、弱相关、冗余的属性,达到精简云本体规模的效果,从而提高构建领域云本体的质量,为农业领域知识服务、共享和重用做出了贡献。
申请公布号 CN105930531A 申请公布日期 2016.09.07
申请号 CN201610422472.5 申请日期 2016.06.08
申请人 安徽农业大学 发明人 李绍稳;赵会园;刘超;张筱丹;章丽;叶琼;李景霞;孔晨;耿凡凡;许高建
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 合肥市长远专利代理事务所(普通合伙) 34119 代理人 程笃庆;黄乐瑜
主权项 一种基于混合模型的农业领域本体知识云维度优选方法,其特征在于,包括以下步骤:S1、导入数据集U,数据集U中包含n个样本,预设阈值α,根据戴维森堡丁指数DB index确定聚类个数k的最优值K<sub>F</sub>,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>U</mi><mo>=</mo><mfenced open = "[" close = "]"><mtable><mtr><mtd><mrow><msub><mi>X</mi><mn>1</mn></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mn>11</mn></msub><mo>,</mo><msub><mi>x</mi><mn>12</mn></msub><mo>,</mo><msub><mi>x</mi><mn>13</mn></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mn>1</mn><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>X</mi><mn>2</mn></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mn>21</mn></msub><mo>,</mo><msub><mi>x</mi><mn>22</mn></msub><mo>,</mo><msub><mi>x</mi><mn>23</mn></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mn>2</mn><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>X</mi><mn>3</mn></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mn>31</mn></msub><mo>,</mo><msub><mi>x</mi><mn>32</mn></msub><mo>,</mo><msub><mi>x</mi><mn>33</mn></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mn>3</mn><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>...</mo><mo>...</mo></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>X</mi><mi>n</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>n</mi><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>x</mi><mrow><mi>n</mi><mn>2</mn></mrow></msub><mo>,</mo><msub><mi>x</mi><mrow><mi>n</mi><mn>3</mn></mrow></msub><mo>...</mo><mo>...</mo><msub><mi>x</mi><mrow><mi>n</mi><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0001012385320000011.GIF" wi="658" he="390" /></maths>X<sub>1</sub>X<sub>2</sub>X<sub>3</sub>......X<sub>n</sub>为数据集U中包含的n个样本,m为属性数量;S2、获得最佳聚类数K<sub>F</sub>后,采用基于欧氏距离的最小生成树算法计算数据的初始聚类中心;S3、通过相关性对数据进行分析,获得数据的属性和数据的类别之间的相关性的算法模型作为相关‑冗余过滤模型;将数据的属性和类别按相关性从大到小排列获得属性相关性序列S<sub>1</sub>,根据相关‑冗余过滤模型删除属性相关性序列S<sub>1</sub>中两两之间相关性大于阈值的冗余属性获得最相关属性集S<sub>2</sub>;S4、从序列S<sub>2</sub>开始,每次添加进一个当前最优的属性,记录此子集的分类准确性,最终将得到的所有集合进行分类准确性比较,选择使分类准确性最佳的子集,即为相应的云维度的信息。
地址 230000 安徽省合肥市蜀山区长江西路130号