发明名称 用于网络消息通信的联系人语义分组方法
摘要 本发明公开一种用于消息通信的联系人语义分组方法,主要解决现有技术不能在大规模社会网络消息通信系统中难以自动实现联系人语义分组,造成社会网络通信系统使用不便利的问题。其实现步骤是:利用消息通信的历史信息构建出用户的通信社会关系图;然后抽取出那些与用户节点通信相对频繁的节点作为语义群组,从中找到所有候选语义群组,通过去除无意义的语义群组、合并不相关的语义群组构建由语义群组构成的拓扑关系;最后通过计算Jaccard系数对拓扑关系构建层次化的语义群组。本发明能处理大规模社会网络消息通信数据,具有简单易行、准确度较高和运行速度较快的优点,可用于解决邮箱、及时通信和社交网络通信中的好友分组问题。
申请公布号 CN102347917B 申请公布日期 2014.04.16
申请号 CN201110346312.4 申请日期 2011.11.04
申请人 西安电子科技大学 发明人 黄健斌;孙鹤立;李伟;吴志殿;慕鹏;赵贝贝;雷倩
分类号 H04L12/58(2006.01)I;H04L12/24(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 1.一种用于网络消息通信的联系人语义分组方法,具体步骤包括: (A)构建用户消息通信社会关系图,即在用户的一次通信记录中,先将用户自身看作是一个节点u,然后将其余所有联系人的集合看作是另一个节点l,在用户节点u和联系人节点l之间建立一条边,以此方式遍历所有通信数据,得到用户的消息通信社会关系图; (B)构建由语义群组构成的拓扑关系T: B<sub>1</sub>)初始化拓扑关系T,在用户消息通信社会关系图中,抽取出那些与用户节点u通信相对频繁的节点作为语义群组,即一个通信记录的联系人的数目大于等于最小组规模时,将联系人集合所构成的节点作为一个语义群组加入到拓扑关系T中; B<sub>2</sub>)生成候选语义群组的最大子集,即如果任意两个语义群组的交集也满足最小组规模时,则将其交集也加入到T中,直到没有新的群组加入为止; B<sub>3</sub>)去除无意义的群组,即将用户节点u与语义群组g交互的消息个数小于最小消息计数阈值的候选语义群组移除; B<sub>4</sub>)将不相关的语义群组合并,即通过计算语义群组间共享差serr进行识别归入,将拓扑关系T中的语义群组按照规模大小进行降序排序,迭代地遍历语义群组集合,移除那些可被更大规模群组代替的语义群组; 所述的计算语义群组间共享差serr,是通过如下公式计算: <img file="FDA0000406824370000011.GIF" wi="991" he="164" />其中msgs(g<sub>1</sub>)、msgs(g<sub>2</sub>)分别为语义群组g<sub>1</sub>、g<sub>2</sub>收到的消息数量,|g|表示语义群组g中联系人的数目; (C)构建层次化的语义群组: C<sub>1</sub>)对步骤B<sub>4</sub>)阶段产生的语义群组,计算任意两个语义群组g<sub>1</sub>和g<sub>2</sub>间的Jaccard系数,是语义群组g<sub>1</sub>和g<sub>2</sub>具有的相同联系人构成的集合 <img file="FDA0000406824370000012.GIF" wi="212" he="179" />其中g<sub>1</sub>∩g<sub>2</sub>是语义群组g<sub>1</sub>和g<sub>2</sub>相同联系人构成的集合,g<sub>1</sub>∪g<sub>2</sub>语义群组g<sub>1</sub>和g<sub>2</sub>所有联系人构成的集合,|g<sub>1</sub>∩g<sub>2</sub>|、|g<sub>1</sub>∪g<sub>2</sub>|表示语义群组集合|g<sub>1</sub>∩g<sub>2</sub>|和|g<sub>1</sub>∪g<sub>2</sub>|中联系人的数目; C<sub>2</sub>)利用步骤C<sub>1</sub>)得出的Jaccard系数与群组间相似度阈值m作比较,判断两个语义群组是否合并,若语义群组g<sub>1</sub>和g<sub>2</sub>间的Jaccard系数大于或相等于群组间相似度阈值m,则把两个语义群组合并,反之不进行合并; C<sub>3</sub>)将步骤C<sub>2</sub>)处理后的语义群组按照收到的消息总数进行降序排序,以得到层次化的语义群组。 
地址 710071 陕西省西安市太白南路2号