发明名称 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
摘要 本发明属于数据挖掘领域,针对挖掘某一学术领域核心作者及智能提取其相关信息的问题本发明提出了一种基于社会网络分析技术中的核心节点发现算法而改进的学术核心作者挖掘、信息抽取方法和系统。本方法融合了垂直搜索技术,社会网络分析技术和文本分析技术,能够在海量信息中找到某一学术领域核心作者或群体,进而获取其相关个人资料信息。本发明采用垂直搜索技术采集开源文献数据。利用文献计量学技术和复杂网络分析技术分析数据中出现的多种社会实体的重要性。并利用社团发现算法,基于实体间关系的紧密程度进行针对实体的聚类,发现学术团体。用户根据实体重要性排序,找到核心作者或机构,并根据合作群体的发文量分布找到领袖团队。
申请公布号 CN103020302B 申请公布日期 2016.03.02
申请号 CN201210592828.1 申请日期 2012.12.31
申请人 中国科学院自动化研究所 发明人 陆浩;王飞跃;温婉婷;甘润生;孙星恺
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 宋焰琴
主权项 一种基于复杂网络的学术核心作者挖掘及相关信息抽取方法,其包括:步骤1、采用垂直搜索技术采集指定领域的文献数据,并对所述文献数据进行整理分析,以获取作者相关信息;步骤2、根据所获取的作者相关信息抽取作者合作网络,并统计作者相关的参数,根据所统计的不同相关参数获得不同的作者排名信息;步骤3、对所抽取的合作网络进行社团划分,划分后的社团作为一个科研群体;步骤4、向用户展示所述不同的作者排名信息和科研群体,并根据用户所选择的作者排名信息和科研群体为用户推荐核心作者和领袖团队;其中,步骤1中采集指定领域的文献数据具体包括:步骤11、确定采集条件,包括确定检索类型、根据不同检索类型确定检索条件;步骤12、根据采集条件动态配置采集信息;步骤13、根据采集条件和采集信息获取文献数据;步骤2中所述相关参数包括作者的发文量分布、作者的平均产出得分、作者在合作网络中的节点中介中心性、度分布、网络聚集系数和H‑index度量,所述节点中介中心性根据下式计算获得:<img file="FDA0000804250610000011.GIF" wi="584" he="246" />其中,g<sub>jk</sub>(i)表示节点j和k之间通过节点i的最短路径的条数,g<sub>jk</sub>表示节点j和节点k之间最短路径的条数;所述网络聚集系数根据下式获得:<img file="FDA0000804250610000021.GIF" wi="348" he="223" />其中,N<sub>Δ</sub>指合作网络中三角形的个数,N<sub>3</sub>是指合作网络中连通三元组的数量;其中,步骤3中所述社团划分采用针对有向网络的快速社团划分方法,具体包括:步骤31、初始化所述合作网络为n个社团,即每个节点为一个独立社团;步骤32、依次合并有边相连的社团,并计算合并后的模块度值;步骤33、重复执行步骤32,直到整个合作网络都合并成一个社团,其中,模块度值最大时,合并后对应的社团为最终划分后的社团;其中,所述模块度值根据下式计算:<img file="FDA0000804250610000022.GIF" wi="941" he="252" /><img file="FDA0000804250610000023.GIF" wi="717" he="199" />其中,Q为模块度值,A为图的邻接矩阵,A<sub>ij</sub>表示边权,<img file="FDA0000804250610000024.GIF" wi="91" he="86" />为节点i的入度,<img file="FDA0000804250610000025.GIF" wi="122" he="84" />为节点j的出度;m为合作网络的总边数。
地址 100190 北京市海淀区中关村东路95号