发明名称 基于自适应分组多层网络的大型数据集约减方法
摘要 本发明公开了一种基于自适应分组多层网络的大型数据集约减方法,主要解决现有技术中计算复杂度高、内存占用空间大的问题,其实现步骤为:(1)输入数据集;(2)对网络参数进行初始化;(3)对网络的输入数据进行分组;(4)对每组数据分别进行样本约减处理,得到每层网络的输出,(5)对于满足输出条件则输出约减结果,否则进行下一级样本约减网络的构建。经实验,将本发明得到的约减样本,应用于谱聚类算法上能够得到和经典算法难分伯仲的聚类精度,并在保证聚类精度的同时降低了聚类计算的复杂度,可用于对大型数据集的处理。
申请公布号 CN104809474A 申请公布日期 2015.07.29
申请号 CN201510226577.9 申请日期 2015.05.06
申请人 西安电子科技大学 发明人 张向荣;焦李成;郭智;冯婕;马文萍;侯彪;熊涛;刘红英
分类号 G06K9/62(2006.01)I;G06N5/04(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 一种基于自适应分组多层网络的大型数据集约减方法,包括以下步骤:(1)输入数据集<img file="FDA0000712037270000011.GIF" wi="230" he="69" />其中N<sub>0</sub>是数据个数,b是数据的维度;(2)初始化网络参数:隐节点个数与输入级数据个数之比θ、隐节点的更新速率v、期望约减后样本数N<sub>est</sub>、最大网络层数N<sub>l</sub>、第一层网络的输入端分组个数N<sub>g</sub>、第一层输入数据Y<sup>k</sup>=X,样本数目N<sub>k</sub>=N<sub>0</sub>,网络层索引值k=1;(3)在第k层网络中,求出每个分组内的最大数据个数n<sub>k,max</sub>=[N<sub>k</sub>/N<sub>g</sub>],其中,[·]运算符表示取括号内整数部分的运算,将输入级数据Y<sup>k</sup>均匀地分配到N<sub>g</sub>个分组中得到数据子集<img file="FDA0000712037270000012.GIF" wi="213" he="100" />其中D<sup>k,p</sup>表示第k层网络中第p个数据子集,其数据个数为n<sub>k,p</sub>,n<sub>k,p</sub>≤n<sub>k,max</sub>;(4)对Y<sup>k</sup>中每组输入数据根据密度峰值和稀疏表示思想依次进行样本约减处理,并判断收敛特性值cov是否大于误差容限值:若是,则增加隐节点子集H<sup>k,p</sup>的样本数量,否则对下一组数据进行样本约减处理,且当所有分组数据处理完毕时,结束样本约减过程,得到N<sub>g</sub>个数据分组的隐节点子集,合并后构成第k层网络的输出<img file="FDA0000712037270000013.GIF" wi="347" he="92" />H<sup>k</sup>中数据个数<img file="FDA0000712037270000014.GIF" wi="292" he="157" />其中n′<sub>k,p</sub>表示第k层网络第p个数据分组样本约减后得到的数据个数;(5)判断输出数据个数N′<sub>k</sub>是否小于期望约减后样本数N<sub>est</sub>或者当前网络层索引值k是否大于最大网络层数N<sub>l</sub>:若满足条件,则输出数据约减结果H<sup>k</sup>,否则,增加一层网络,并把第k层网络的输出H<sup>k</sup>作为下一级网络的输入Y<sup>k+1</sup>,即Y<sup>k+1</sup>=H<sup>k</sup>,N<sub>k+1</sub>=N′<sub>k</sub>,更新参数:k=k+1、N<sub>k</sub>←N<sub>k+1</sub>、Y<sup>k</sup>←Y<sup>k+1</sup>,返回步骤(3)。
地址 710071 陕西省西安市太白南路2号