发明名称 一种网络物理系统混合数据分类方法
摘要 本发明给出一种网络物理系统混合数据分类方法,该方法利用决策树对用户输入网络物理系统数据依据不同的类型进行分类处理。在本方法中,当数据记录是离散型数据,通过计算数据记录属性的信息增益来构建代表离散型数据分类的决策树;当数据记录是连续型数据,通过计算数据记录的残差平方和来构建代表离散型数据分类的决策树。本发明所述的网络物理系统混合数据分类方法包含如下过程:收集用户输入网络物理系统数据,根据相关的逻辑判断条件,利用决策树进行数据分类。所述网络物理系统数据可以是离散值,也可以是连续值。本发明能够减少资源限制对网络物理系统数据分类效率的影响,在较少的时间和空间条件下对网络物理系统进行高效数据分类。
申请公布号 CN104699768A 申请公布日期 2015.06.10
申请号 CN201510083345.2 申请日期 2015.02.16
申请人 南京邮电大学 发明人 陈志;罗一迪;岳文静
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种网络物理系统混合数据分类方法,其特征在于该方法包括以下步骤:步骤1)收集用户输入的网络物理系统的数据记录,并设定数据记录的类型,所述的数据记录包括数据值、属性名称、属性值,这里数据记录中不同的属性由用户指定,不同的属性对应特定的值,所述数据记录的类型是指离散型数据和连续型数据;步骤2)依次选择网络物理系统数据记录构建决策树,步骤21)当数据记录是离散型数据,则进行如下步骤:步骤211)创建一个根节点,该节点包括网络物理系统当前所有离散型的数据记录,步骤212)当根节点中所有数据记录的属性值都相同,则将根节点标记为叶子节点C,并返回根节点;步骤213)当根节点中所有数据记录的属性值不相同,则计算每种属性的数据在所有数据记录中出现的次数与总的数据个数的比值,将这个比值作为该种属性的信息增益,选择具有最大信息增益的属性作为分裂属性,根据这个分裂属性将根节点分为两部分;所述的信息增益是一种选择方式,看属性能够为分类系统带来多少信息,带来的信息越多,该特征越重要;所述的分裂属性是指节点分裂成不同节点所依据的原则,是一个判断逻辑;步骤214)按照步骤211)至步骤213),对于新生成的节点递归进行相同的步骤;步骤215)向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理系统中离散型数据记录的分类;步骤22)当数据记录是连续型数据,则进行如下步骤:步骤221)创建一个根节点,该节点包括网络物理系统当前所有连续型的数据记录;步骤222)分别计算各个数据记录作为分隔点的残差平方和,所述的计算残差平方和的具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差,再计算所有数据记录的数据值的平均值,然后计算每一个数据记录的数据值与所有数据记录的数据值的平均值的差,最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的平方和作为当前作为分隔点的数据记录的残差平方和;步骤223)选择残差平方和最小的数据记录作为最佳分隔点;所述的最佳分隔点是指分裂节点的一种原则;步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树;步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树;步骤226)依据步骤221)至步骤224)对左子树进行构建决策树;步骤227)依据步骤221)至步骤224)对右子树进行构建决策树;步骤228)当该节点属性完全相同或只剩一个数据记录,则将该节点标记为叶节点;步骤229)选择两个相邻叶子节点,计算这两个相邻叶子节点的残差平方和,再计算这两个相邻叶子节点合并后的残差平方和,然后比较这两个相邻叶子节点合并前后的残差平方和,当合并后的小于合并前的,则将两个叶子节点合并为一个节点;步骤2210)重复步骤229),当所有相邻叶子节点都通过步骤229)进行处理完毕,向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理系统中连续型数据记录的分类。
地址 210023 江苏省南京市亚东新城区文苑路9号