发明名称 一种基于部分物化的顶点近似密度分布表示方法
摘要 本发明公开一种基于部分物化的顶点近似密度分布表示方法,该方法结合距离密度指数求解的思想,从局部角度求解图模型中顶点的距离概率,通过随机抽样和代表性顶点选择等方法获取目标解空间。本发明能够形成解决在规模较大的图模型中顶点近似密度求取方法的方案,使近似密度分布求解问题在解决过程中的时间和空间复杂度得到优化,避免冗余繁琐的计算步骤。
申请公布号 CN105975985A 申请公布日期 2016.09.28
申请号 CN201610281011.0 申请日期 2016.04.29
申请人 南京邮电大学 发明人 陈雨诗;陈志;岳文静;王宇虹;卜杰;田思明;杨天明;龚凯
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种基于部分物化的顶点近似密度分布表示方法,其特征在于该方法包括以下步骤:步骤1)用户输入图信息,完成初始化,具体步骤如下:步骤1.1)用户输入顶点集合V={v<sub>1</sub>,v<sub>2</sub>,...,v<sub>n</sub>},输入边集合E={e<sub>1</sub>,e<sub>2</sub>,...,e<sub>m</sub>},所述n表示顶点个数;V表示图中所有顶点的集合;m表示边数;E表示图G(V,E)中所有边的集合,边集合E中的每个元素表示一条边的信息,即这条边由V中的两个顶点连接而成;步骤1.2)用户输入索引距离d,所述索引距离d是指一个顶点到另一个顶点的最短距离;所述顶点间的最短距离是指顶点到顶点通过的最少边数;步骤1.3)根据索引距离d求取每个顶点v的邻域N<sub>d</sub>(v),所述邻域N<sub>d</sub>(v),是指到顶点v的最短距离不大于索引距离d的顶点集合;所述顶点v代表顶点集合V={v<sub>1</sub>,v<sub>2</sub>,...,v<sub>n</sub>}中的一个顶点;步骤2)求取图G(V,E)的代表性顶点集U,具体步骤如下:步骤2.1)用户输入需要求取的代表性顶点u的个数k,所述代表性顶点u,是指能代表领域N<sub>d</sub>(u)范围内的顶点密度分布情况的顶点;所述代表性顶点集U,是指k个代表性顶点的集合;步骤2.2)对于每个顶点v,求顶点v和其他顶点的共享邻居,所述顶点v的邻居是指在顶点v的邻域N<sub>d</sub>(v)内除了顶点v的所有顶点;所述共享邻居是指两个顶点v<sub>i</sub>和v<sub>j</sub>的邻域N<sub>d</sub>(v<sub>i</sub>)和N<sub>d</sub>(v<sub>j</sub>)取交集后得到的顶点集合;所述i和j是1到n之间的整数;步骤2.3)如果顶点v与其他顶点的共享邻居个数不低于顶点v的邻居个数的一半,就把顶点v作为一个代表性顶点,并把顶点v加入代表性顶点集U,顶点v的所有邻居不再作为代表性顶点的选取对象;步骤2.4)重复步骤2.2)到步骤2.3),直到求取了k个代表性顶点,得到代表性顶点集U={u<sub>1</sub>,u<sub>2</sub>,...,u<sub>k</sub>};步骤3)求取代表性顶点的子集,具体步骤如下:步骤3.1)从代表性顶点集U中取出一个代表性顶点u<sub>q</sub>,求出顶点u<sub>q</sub>的邻域N<sub>d</sub>(u<sub>q</sub>),得到顶点u<sub>q</sub>的n<sub>u</sub>个邻居,所述n<sub>u</sub>代表顶点u<sub>q</sub>的邻居个数,所述q是1到k之间的整数;步骤3.2)如果n<sub>u</sub>为偶数,就从邻域N<sub>d</sub>(u<sub>q</sub>)中随机选出n<sub>u</sub>/2个顶点作为N<sub>d</sub>(u<sub>q</sub>)的一个子集N'<sub>d</sub>(u<sub>q</sub>);如果n<sub>u</sub>为奇数,就从邻域N<sub>d</sub>(u<sub>q</sub>)中随机选出(n<sub>u</sub>+1)/2个顶点作为N<sub>d</sub>(u<sub>q</sub>)的一个子集N'<sub>d</sub>(u<sub>q</sub>);步骤3.3)随机挑选N'<sub>d</sub>(u<sub>h</sub>)中的一个顶点v<sub>p</sub>,求出顶点v<sub>p</sub>的邻域N<sub>d</sub>(v<sub>p</sub>),得到顶点v<sub>p</sub>的n<sub>v</sub>个邻居,所述n<sub>v</sub>代表顶点v<sub>p</sub>的邻居个数,所述p是1到k之间的整数;步骤3.4)如果n<sub>v</sub>为偶数,就从邻域N<sub>d</sub>(v<sub>p</sub>)中随机选出n<sub>v</sub>/2个顶点作为N<sub>d</sub>(v<sub>p</sub>)的一个子集N'<sub>d</sub>(v<sub>p</sub>);如果n<sub>v</sub>为奇数,就从邻域N<sub>d</sub>(v<sub>p</sub>)中随机选出(n<sub>v</sub>+1)/2个顶点作为N<sub>d</sub>(v<sub>p</sub>)的一个子集N'<sub>d</sub>(v<sub>p</sub>);步骤3.5)求取N'<sub>d</sub>(u<sub>q</sub>)和N'<sub>d</sub>(v<sub>p</sub>)的交集M(u<sub>q</sub>,v<sub>p</sub>),所述交集M(u<sub>q</sub>,v<sub>p</sub>),是指在N'<sub>d</sub>(u<sub>q</sub>)和N'<sub>d</sub>(v<sub>p</sub>)都出现的顶点集合;步骤4)随机抽样获取样本顶点对,具体步骤如下:步骤4.1)用户输入需要获取的样本顶点对的个数num;步骤4.2)从交集M(u<sub>q</sub>,v<sub>p</sub>)中随机选取的一个顶点x,把顶点x和顶点v<sub>p</sub>作为一个近距离样本顶点对Close_pair<sub>j</sub>(x,v<sub>p</sub>),并记录顶点x到顶点v<sub>p</sub>的最短距离,所述近距离样本顶点对Close_pair<sub>j</sub>(x,v<sub>p</sub>),是指顶点间的最短距离不超过索引距离d的样本顶点对;步骤4.3)随机选取一个存在于N'<sub>d</sub>(u<sub>q</sub>)中但不存在于N'<sub>d</sub>(v<sub>p</sub>)中里的顶点y,其中y∈N'<sub>d</sub>(u<sub>q</sub>)‑N'<sub>d</sub>(v<sub>p</sub>),把顶点y和顶点v<sub>p</sub>作为一个远距离样本对Far_pair<sub>i</sub>(y,v<sub>p</sub>),并记录顶点y到顶点v<sub>p</sub>的距离,所述远距离样本顶点对Far_pair<sub>i</sub>(y,v<sub>p</sub>),是指顶点间的最短距离超过索引距离d的样本顶点对;步骤4.4)重复步骤4.2)到步骤4.3),直到得到num组近距离样本顶点对Close_pair和num组远距离样本顶点对Far_pair;步骤5)计算顶点u<sub>q</sub>的距离概率p(u<sub>q</sub>,d),具体步骤如下:步骤5.1)计算顶点u<sub>q</sub>每个距离h的密度指数P(h|N<sub>d</sub>(u<sub>q</sub>)),h是1到d之间的整数,所述密度指数P(h|N<sub>d</sub>(u<sub>q</sub>)),是指图G(V,E)中最短距离为h的顶点对个数占总顶点对个数的百分比,P(h|N<sub>d</sub>(u<sub>q</sub>))的计算公式为:<img file="FDA0000979134710000031.GIF" wi="838" he="174" />其中I表示指标函数,用于判断函数中的式子是否符合条件,如果符合条件,I的值赋为1,如果不符合条件,I的值赋为0;其中dist(v<sub>i</sub>,v<sub>j</sub>)=h表示满足两个顶点间最短距离等于h的条件;步骤5.2)根据密度指数P(h|N<sub>d</sub>(u<sub>q</sub>)),求取顶点u<sub>q</sub>的距离概率p(u<sub>q</sub>,d),所述距离概率p(u<sub>q</sub>,d)是指图G(V,E)中各顶点间最短距离不超过d的概率,其计算公式为:<img file="FDA0000979134710000032.GIF" wi="518" he="111" />步骤6)求取图G(V,E)的近似密度分布,具体步骤如下:步骤6.1)把求取的代表性顶点u<sub>q</sub>的距离概率p(u<sub>q</sub>,d)加入答案集合ans,所述答案集合ans是指每个代表性顶点u<sub>q</sub>的距离概率p(u<sub>q</sub>,d)要加入的集合;步骤6.2)重复步骤3)到步骤5),对其他代表性顶点u<sub>q</sub>求取距离概率p(u<sub>q</sub>,d),直到将k个距离概率p(u<sub>q</sub>,d)加入答案集合ans;步骤6.3)将答案集合ans设置为图G(V,E)的顶点近似密度分布。
地址 210023 江苏省南京市亚东新城区文苑路9号