发明名称 一种科研文献话题发现和演化跟踪的方法
摘要 本发明公开了一种科研文献话题发现和演化跟踪的方法,该方法首先下载某一学科的科研文献,整理所得文献元数据,文献元数据进行数据预处理得到文献元数据集;然后利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布,之后将提取的话题在时间轴上进行划分,形成不同时间段上的子话题;最后计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。本发明综合利用了文献的文本和引用信息来发现话题,获得的话题质量更高、更符合实际。本发明可以实现发现重要的科研话题和跟踪这些话题随时间的演化情况,有助于科技人员迅速把握科研话题和话题的演化脉络。
申请公布号 CN106570088A 申请公布日期 2017.04.19
申请号 CN201610913510.7 申请日期 2016.10.20
申请人 浙江大学 发明人 周厚奎;于慧敏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 邱启旺
主权项 一种科研文献话题发现和演化跟踪的方法,其特征在于,包括以下步骤:A1,下载某学科领域的科研文献,整理所得文献元数据。A2,对A1中下载的文献数据进行预处理形成文献数据集S。A3,对A2整理形成的文献数据集S,利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布。A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题。A5,利用话题之间的相关性度量方法计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。上述步骤A3具体包括以下子步骤:A31.根据文献数据集S的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,其中m是分解以后B矩阵的行和H矩阵的列的数量,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素c<sub>i,j</sub>表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素m<sub>i,j</sub>表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步骤中生成的每个话题c<sub>i,j</sub>,利用组成该话题的文献的内容建立基于“词袋”模型的LDA概率话题模型。该LDA概率话题模型将话题考虑为词的集合,其具体的生成过程为:根据文献话题分布D<sub>doc_topic</sub>(;d)~θ<sub>d</sub>来生成话题z<sub>d,n</sub>,再根据话题词的分布<img file="FDA0001134822720000011.GIF" wi="518" he="85" />来生成文献的词,利用吉布斯采样来生成模型参数即话题词的分布<img file="FDA0001134822720000012.GIF" wi="93" he="62" />和文献话题的分布θ<sub>j,k</sub>,其中有θ<sub>d</sub>~Dir(α)和<img file="FDA0001134822720000013.GIF" wi="298" he="79" />其中α、β是Dirichlet分布的参数,所得话题模型的参数<img file="FDA0001134822720000014.GIF" wi="98" he="63" />和θ<sub>j,k</sub>组成话题<img file="FDA0001134822720000015.GIF" wi="366" he="94" />上述步骤A4中的话题在时间轴上的分割,主要是利用属于某一个话题的文档的时间信息,将话题在不同的时间段上进行分割,形成该时间段上的子话题<img file="DA00011348227252774.GIF" wi="365" he="83" /><img file="FDA0001134822720000016.GIF" wi="671" he="66" />其中K是话题的数量,P是时间段的数量。具体的时间划分方案如下:根据划分的时间段数P、文档的起始时间t<sub>0</sub>、终止时间t<sub>s</sub>来确定每一个时间段的时间间隔的大小为(t<sub>s</sub>‑t<sub>0</sub>)/P。上述步骤A5中的话题演化分析具体包括:A51.对任意相邻的两个时间间隔上的两个话题z<sub>i</sub>和z<sub>j</sub>利用每个话题的词的分布<img file="FDA0001134822720000021.GIF" wi="122" he="86" /><img file="FDA0001134822720000022.GIF" wi="92" he="85" />和每个话题的核心论文的分布<img file="FDA0001134822720000023.GIF" wi="214" he="79" />来计算两个话题的关系;A52.对相邻时间段上的任意的两个话题按照A51所示步骤求解相关性度量,为度量值大于一定门限值的两个话题建立有向边,边的方向按照话题之间的时间关系来确定,以此来构建话题之间的演化关系图。
地址 310058 浙江省杭州市西湖区余杭塘路866号