发明名称 一种基于聚类分析的互联网信息热点控制方法
摘要 本发明是一种基于聚类分析的互联网信息热点控制方法,该方法首先获取信息集合S;其次将集合S中的信息聚合成若干个集合,计为C,C包含C1、C2、…、Cn(其中:|C1|+|C2|+…+|Cn|=|S|);接着计算每一个小集合Ci的热度,Ci的热度由它包含的每条信息的热度累加而成;最后对C进行热度的排序。本发明方法合理,操作方便,准确性高,它对热度的计算基于信息自身属性和信息之间的相关性,具有普遍性,适合整个互联网信息的热度计算。
申请公布号 CN103593358A 申请公布日期 2014.02.19
申请号 CN201210290482.X 申请日期 2012.08.16
申请人 江苏金鸽网络科技有限公司 发明人 伊鹏;陈永江;刘永超;夏波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京众联专利代理有限公司 32206 代理人 刘喜莲
主权项 1.一种基于聚类分析的互联网信息热点控制方法,其特征在于:首先获取信息集合S;其次将集合S中的信息聚合成若干个小集合C,C包含C1、C2、……、Cn;其中:|C1|+|C2|+……+|Cn|=|S|;接着计算每一个小集合Ci的热度;最后将C进行热度排序;其具体步骤如下:(1)、获取信息集合S;其操作步骤如下:(1-1)、从数据采集处获取初始数据集S1;(1-2)、区分并保存S1中的每一条信息的属性,其中属性包括:信息权重r;信息访问量a;信息回复量b;信息的转发量c;(1-3)、将处理后的信息看作集合S;(2)、将集合S中的信息聚合成类集合C;其操作步骤如下:(2-1)、依次提取S中的每一条信息di;(2-2)、提取di的特征词集合F(di);(2-3)、探测是否存在已形成的聚合类C,若存在则转入下述步骤(2-3-1);否则转入下述步骤(2-3-2);(2-3-1)、将F(di)与某一类Ci的中心信息的特征词集合作相似度比较,结果若大于等于设定的阀值,则将di加入到聚合类Ci,并调整Ci的中心文章;否则返回重复3-3,逐一比较F(di)与每一个聚合类的中心信息的特征词集合的相似度,如全部比较完成后di仍没有聚合到某一聚合类,则创建新的聚合类,并将di加入到新创建的聚合类;(2-3-2)、创建新的聚合类,并将di加入到新创建的聚合类;(2-4)、返回重复执行步骤(2-1),直至处理完成S中所有信息,所有的聚合类Ci集合,即为所述的聚合类的集合C;(3)、计算每个聚合类的热度;其操作步骤如下:(3-1)、获取步骤(2)中得到某一聚合类Ci;(3-2)、获取Ci中的信息di;(3-3)、获取di的自身属性:信息权重r;信息访问量a;信息回复量b;转发量c;(3-4)、计算di的热度H(di)=r×(a×l%+b×m%+c×n%);其中,l,m,n均属于正整数,且 l+m+n=100;(3-5)、计算Ci的热度,计算公式如下:<img file="201210290482X100001DEST_PATH_IMAGE001.GIF" wi="500" he="196" />;(3-6)、返回重复执行步骤(3-1),直至处理完所有的聚合类;(4)、将集合C进行排序;其操作步骤如下:(4-1)、获取步骤(3)中得到的聚合类的热度;(4-2)、使用快速排序算法对C进行排序。
地址 222000 江苏省连云港市新浦区龙河大厦西塔楼(B座)7层706室