发明名称 一种商品关联大数据稀疏网络快速聚类方法
摘要 本发明公开了一种商品关联大数据稀疏网络快速聚类方法,包括以下步骤:对商品销售记录数据进行预处理,构建存储商品关联大数据稀疏网络;对商品关联大数据稀疏网络进行剪枝;对商品关联大数据稀疏网络进行快速聚类,得到聚类结果。本发明采用单步链表结构存储商品节点间的关系,只标记与商品节点直接相连商品节点的关系,消除共同购买关系矩阵中的冗余空间。本发明对商品关联大数据稀疏网络的低度商品节点进行剪枝提高挖掘效率并提高聚类的精度。本发明利用高度值商品节点被低度值商品节点分割的思想可以消除传统聚类算法的制约,直接依据度的值进行判断,无须考虑数据分布、无须多次访问数据、无须先验知识即可完成聚类过程。
申请公布号 CN106446943A 申请公布日期 2017.02.22
申请号 CN201610833006.6 申请日期 2016.09.19
申请人 大连海事大学 发明人 李桃迎;陈燕;张金松;孙爽;张春刚
分类号 G06K9/62(2006.01)I;G06Q30/02(2012.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 李洪福
主权项 一种商品关联大数据稀疏网络快速聚类方法,其特征在于:包括以下步骤:A、对商品销售记录数据进行预处理,构建存储商品关联大数据稀疏网络A1、令V为商品节点集合,商品节点数目为N,则V={v<sub>1</sub>,v<sub>2</sub>,…,v<sub>i</sub>,…,v<sub>N</sub>},v<sub>i</sub>表示第i种商品节点;A2、依据商品购买记录,建立商品间共同购买关系的商品关联大数据稀疏网络G=&lt;V,E&gt;,所有商品间共同购买关系边的集合为E,即E={e<sub>ij</sub>},商品节点v<sub>i</sub>和v<sub>j</sub>间的共同购买关系作为边e<sub>ij</sub>,同时所有商品共同购买关系的矩阵表达形式为(e<sub>ij</sub>)<sub>N*N</sub>,v<sub>j</sub>表示第j种商品节点;j=1,2,…,N;A3、存储商品节点v<sub>i</sub>为一个单步链表,单步链表包含三部分:商品节点v<sub>i</sub>的序号、商品节点v<sub>i</sub>的连接度d<sub>i</sub>、指向所有与该商品节点v<sub>i</sub>相邻的所有商品节点序号的集合Ω<sub>i</sub>;商品节点v<sub>i</sub>的连接度d<sub>i</sub>表示与商品节点v<sub>i</sub>存在共同购买关系的商品数目,即商品购买关系网络中与商品节点v<sub>i</sub>相邻的商品节点数;获取Ω<sub>i</sub>的步骤如下:A31、设定当前商品节点序号j=1,Ω<sub>i</sub>=Φ,Φ为空集;A32、判断:如果j≤N,则转到步骤A33,否则转到步骤A35;A33、判断:如果商品节点v<sub>i</sub>和v<sub>j</sub>相邻,即存在共同购买关系,则把商品节点v<sub>j</sub>存入Ω<sub>i</sub>,否则直接转入步骤A34;A34、令当前商品节点序号j=j+1,返回步骤A32;A35、停止得到Ω<sub>i</sub>;B、对商品关联大数据稀疏网络进行剪枝B1、令连接度的阈值为d<sub>c</sub>;B2、设定当前商品节点序号i=1;B3、判断:如果商品节点v<sub>i</sub>的连接度d<sub>i</sub>≥d<sub>c</sub>,则转到步骤B4;否则转到步骤B5;B4、将商品节点v<sub>i</sub>放入集合Ψ,Ψ为连接度大于等于d<sub>c</sub>的商品节点集合;B5、当前商品节点序号i=i+1;B6、判断:如果i≤N,则转到步骤B3;否则转到步骤B7;B7、停止剪枝,得到剪枝后的商品节点集合Ψ;B8、设定当前商品节点序号i=1;B9、判断:如果v<sub>i</sub>∈Ψ,<img file="FDA0001116386380000021.GIF" wi="155" he="66" />且v<sub>j</sub>∈Ω<sub>i</sub>,从Ω<sub>i</sub>中删除v<sub>j</sub>,j=1,2,…,N;否则转到步骤B10;B10、求新的商品节点序号i=i+1;B11、判断:如果i≤N,则转到步骤B9;否则转到步骤B12;B12、得到剪枝后的商品关联大数据稀疏网络G’=&lt;V’,E’&gt;,V’为剪枝后的商品节点集合,E’为剪枝后边的集合;C、对商品关联大数据稀疏网络进行快速聚类,得到聚类结果C1、设定聚类最终得到类的数目为L,令C<sub>l</sub>表示第l个类中的商品节点集合,首先寻找第1个类C<sub>1</sub>中的商品节点,即当前类的序号l=1;C2、判断:如果Ψ≠Φ,Φ为空集,则转到步骤C3;否则转到步骤C9;C3、将Ψ中的商品节点按照连接度的值由大到小的顺序排列,得到当前连接度最大的商品节点v<sub>m</sub>;C4、将v<sub>m</sub>放入C<sub>l</sub>中;C5、对C<sub>l</sub>中的任意第j个商品节点v<sub>j</sub>,更新C<sub>l</sub>中的商品节点得到新的类C<sub>l</sub><sup>*</sup>=C<sub>l</sub>∪Ω<sub>j</sub>;C6、如果C<sub>l</sub><sup>*</sup>≠C<sub>l</sub>,则把C<sub>l</sub><sup>*</sup>的值赋值给C<sub>l</sub>,即C<sub>l</sub>=C<sub>l</sub><sup>*</sup>,转到步骤C5;否则转到步骤C7;C7、令Ψ=Ψ‑C<sub>l</sub>;C8、求新的类序号l=l+1,转到步骤C2;C9、聚类过程结束,输出各类中的商品节点。
地址 116026 辽宁省大连市高新园区凌海路1号