发明名称 基于聚类-决策树的玉米良种选育方法
摘要 本发明公开了一种基于聚类-决策树的玉米良种选育方法,包括数据预处理、建立决策树、根据形成的决策树,系统判断所输入的属性值属于哪个分类,并通过计算这个三维点和所属分类中其他点的距离,得到一个距离最小的点,这个点所具有的属性就是最接近于输入玉米品种的玉米属性,从子女表中查询出这个玉米品种的父类和母类,即完成玉米选育的功能。本发明结合聚类和决策树算法,可根据要求对玉米的生育信息、生长信息和收获信息等进行玉米良种的优选,可达到降低劳动强度,提高决策效率的目的。
申请公布号 CN101697167A 申请公布日期 2010.04.21
申请号 CN200910233447.2 申请日期 2009.10.30
申请人 邱建林;季丹;陈建平;顾翔;李芬 发明人 邱建林;季丹;陈建平;顾翔;李芬
分类号 G06F17/30(2006.01)I;A01H1/04(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南通市永通专利事务所 32100 代理人 葛雷
主权项 一种基于聚类-决策树的玉米良种选育方法,其特征是:包括下列步骤:(1)数据预处理:将选择的三个属性对应成空间中的三维点,利用聚类算法中的k-平均算法,计算子女表中所有的记录点和重心之间的距离,比较大小,最终将所有的记录聚为两个簇,并使每个簇内的记录有较大的相似度,而不同的簇有较大的相异度;(2)建立决策树:先离散化所选的三个属性的属性值,将它们分区成三类,并将千粒重作为分类属性,划分类别标记为低产、中产、高产,在输入全生育期、千粒重和小区产量这三个属性之后,根据欧氏距离公式: <mrow> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>ik</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>jk</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </msup> </mrow>即可判断这个三维点属于哪个聚类簇,得出结论后,对这个簇进行ID3算法的数据挖掘,计算出全生育期属性和小区产量属性的信息增益值,并将具有较大增益的属性作为测试属性,在测试属性分段的子节点处,引出分支,划分整个记录集,再依次进行即可形成一个精简的决策树,其中属性Sk的信息增益公式为: <mrow> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>K</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>h</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mrow> <mo>(</mo> <mfrac> <msub> <mi>n</mi> <mi>k</mi> </msub> <msub> <mi>n</mi> <mi>j</mi> </msub> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <mfrac> <msub> <mi>n</mi> <mi>ik</mi> </msub> <msub> <mi>n</mi> <mi>k</mi> </msub> </mfrac> <mo>&times;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mfrac> <msub> <mi>n</mi> <mi>ik</mi> </msub> <msub> <mi>n</mi> <mi>k</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>其中nj是总节点的出现次数,nk是预测属性值为Vk的子节点的出现次数,nik是分类属性为Ci的预测属性值为Vk的子节点的出现次数;(3)根据形成的决策树,系统判断所输入的属性值属于哪个分类,并通过计算这个三维点和所属分类中其他点的距离,得到一个距离最小的点,这个点所具有的属性就是最接近于输入玉米品种的玉米属性,从子女表中查询出这个玉米品种的父类和母类,即完成玉米选育的功能。
地址 226019 江苏省南通市啬园路9号南通大学计算机学院