发明名称 一种基于链接网络的用户领域识别方法及其装置
摘要 本发明提出一种基于链接网络的用户领域识别方法及其装置,属于数据发掘及复杂网络领域。装置包括数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块。方法包括:步骤1,手工采集初始种子用户;步骤2,收集种子用户的关注用户;步骤3,构建链接网络,计算各关注用户对于各领域的隶属度;步骤4,按隶属度大小将用户排序;步骤5,为各领域构建领域原型用户集合;步骤6,收集待分类用户的关注用户;步骤7,计算待分类用户对于各领域的隶属度;步骤8,将领域隶属度大小排序;步骤9,加领域标签。本发明适用于多种社交网络平台,能够克服短文本的缺点,特别适合用户建模,个性化信息搜索和推荐等领域。
申请公布号 CN103761246A 申请公布日期 2014.04.30
申请号 CN201310705515.7 申请日期 2013.12.19
申请人 国家计算机网络与信息安全管理中心 发明人 刘春阳;程工;张旭;庞琳;王卿;吴俊杰;王亚琼;李红;韩小汀
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 周长琪
主权项 一种基于链接网络的用户领域识别装置,其特征在于,包括三个模块:数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块;其中,数据收集与预处理模块的功能是采集初始种子用户,爬取初始种子用户的关注用户列表;领域原型用户集合构建模块利用各个领域初始种子用户的关注用户,为各个领域构建原型用户;用户领域计算模块用来计算和排序选择待分类用户的各个领域隶属度;数据收集与预处理模块包括手工采集样本模块以及运行爬虫/请求API(Application Programming Interface,应用程序编程接口)获取种子用户关注列表模块;手工采集样本模块用于获取和存储各个领域的初始种子用户id,并将初始种子用户id传输给运行爬虫/请求API获取种子用户关注列表模块;运行爬虫/请求API获取种子用户关注列表模块根据各个领域的初始种子用户id获取各个领域的初始种子用户的关注用户;领域原型用户集合构建模块包括:计算种子用户关注者领域隶属度模块、在各个领域上按隶属度排序用户模块、获取扩展的领域原型用户集合模块;计算种子用户关注者领域隶属度模块根据获取的各个领域的初始种子用户的关注用户,针对每个关注用户,计算该关注用户对于各个领域的领域隶属度,并将领域隶属度传输给在各个领域上按隶属度排序用户模块,在各个领域上按隶属度排序用户模块对每个关注用户的所有领域隶属度进行降序排序,并将排序后的领域隶属度传输给获取扩展的领域原型用户集合模块;获取扩展的领域原型用户集合模块,针对每个领域,选择具有该领域的最高领域隶属度的前K个用户与该领域的初始种子用户合并构成该领域的原型用户集合,也就是该领域扩展的领域原型用户集合;其中,K为正整数;用户领域计算模块包括运行爬虫/请求API获取待分类用户关注列表模块、计算待分类用户领域隶属度模块、对每个用户按隶属度排序领域模块、取前A个领域作为用户领域标签模块;其中,A为正整数;运行爬虫/请求API获取待分类用户关注列表模块根据待分类用户,获取待分类用户的关注用户,将待分类用户的关注用户传输给计算待分类用户领域隶属度模块;计算待分类用户领域隶属度模块根据扩展的领域原型用户集合以及待分类用户的关注用户计算出待分类用户对于各个领域的领域隶属度,并将该待分类用户的领域隶属度传输给对每个用户按隶属度排序领域模块;对每个用户按隶属度排序领域模块对该待分类用户领域隶属度进行降序排序,并将排序后的待分类用户领域隶属度传输给取前A个领域作为用户领域标签模块,最后得到待分类用户的兴趣领域标签。
地址 100029 北京市朝阳区裕民路甲3号