发明名称 一种基于时间序列的科技文献被引用数目预测方法
摘要 本发明的一种基于时间序列的科技文献被引用数目预测方法,先统计科技文献的被引用数目,然后计算每个月份里文献的平均被引用数目;结合每个月的平均被引用数目对该月份的被引用数目做归一化处理,得到被引用时间序列;根据时间序列进行聚类分析,通过划分训练集和验证集、构建回归模型、进行误差分析,得到被引用数目预测性能最优模型;最后根据待测文献与各类文献时间序列的相似度分析,得到相似度最高的类,用预测最优模型得到待测文献未来一个月的被引用数目。本发明不但能够自动分析每个文献出版后的被引用情况,获得每个月份的平均被引用数目,还通过聚类挖掘出文献的不同引用模式,进而根据待测文献的已有时间序列预测出未来的被引用数目。
申请公布号 CN104462215A 申请公布日期 2015.03.25
申请号 CN201410618173.X 申请日期 2014.11.05
申请人 大连理工大学 发明人 姚念民;李梦阳;谭国真;战福瑞
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连理工大学专利中心 21200 代理人 梅洪玉
主权项 一种基于时间序列的科技文献被引用数目预测方法,其特征在于:步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount(month);步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;步骤4:根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长;对长度超过N的时间序列,要对超长部分进行截断;对长度低于N的时间序列,舍弃;N值由用户设定;进行聚类时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树;被引用时间序列X<sub>i</sub>=(X<sub>i1</sub>,X<sub>i2</sub>,…X<sub>i8</sub>):表示文献i的被引用时间序列向量值;被引用时间序列X<sub>j</sub>=(X<sub>j1</sub>,X<sub>j2</sub>,…X<sub>j8</sub>):表示文献j的被引用时间序列向量值;距离d(X<sub>i</sub>,X<sub>j</sub>):表示文献i和j的被引用时间序列的欧几里得距离;距离计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>[</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mn>8</mn></munderover><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>ik</mi></msub><mo>-</mo><msub><mi>X</mi><mi>jk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow>]]></math><img file="FDA0000601428480000011.GIF" wi="674" he="194" /></maths>通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加权平均距离法生成聚类树。类间距离D<sub>pq</sub>:表示类别G<sub>p</sub>,G<sub>q</sub>之间的距离。其中G<sub>p</sub>的元素个数为n<sub>p</sub>,G<sub>q</sub>的元素个数为n<sub>q</sub>.元素间距离d<sub>ij</sub>:表示时间序列i,j之间的距离。类间距离计算公式如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>D</mi><mi>pq</mi></msub><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>n</mi><mi>p</mi></msub><msub><mi>n</mi><mi>q</mi></msub></mrow></mfrac><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>&Element;</mo><msub><mi>G</mi><mi>p</mi></msub></mrow></munder><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><msub><mi>G</mi><mi>q</mi></msub></mrow></munder><msub><mi>d</mi><mi>ij</mi></msub></mrow>]]></math><img file="FDA0000601428480000012.GIF" wi="511" he="177" /></maths>通过聚类分析,将集合中的各个文献划分成不同的类,对类中时间序列构建回归模型时,首先划分训练集和验证集,选中时间序列中的一个时间点,把该时间点以前的数据作为训练集,该时间点以后的数据作为验证集;在训练集上建立模型,在验证集上评估模型准确性。最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到的最优预测模型;步骤5:利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目;对于两个文献p与文献p<sub>j</sub>,分别用(X<sub>i1</sub>,X<sub>i2</sub>,…X<sub>i8</sub>)和(X<sub>j1</sub>,X<sub>j2</sub>,…X<sub>j8</sub>)表示对应的时间序列向量值,则文献间时间序列相似度Similarity(p,p<sub>j</sub>)的计算公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>Similarity</mi><mrow><mo>(</mo><mi>p</mi><mo>,</mo><msub><mi>p</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>cos</mi><mi>&theta;</mi><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>k</mi></msub><msub><mi>X</mi><mi>ik</mi></msub><mo>&times;</mo><msub><mi>X</mi><mi>jk</mi></msub></mrow><msqrt><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mi>k</mi></msub><msup><msub><mi>X</mi><mi>ik</mi></msub><mn>2</mn></msup><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mi>k</mi></msub><msup><msub><mi>X</mi><mi>jk</mi></msub><mn>2</mn></msup><mo>)</mo></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0000601428480000021.GIF" wi="1029" he="220" /></maths>通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。计算待测文献与各类文献时间序列的相似度的公式如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>Similarity</mi><mrow><mo>(</mo><mi>p</mi><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><mo>&times;</mo><mo>[</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>Similarity</mi><mrow><mo>(</mo><mi>p</mi><mo>,</mo><msub><mi>p</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow>]]></math><img file="FDA0000601428480000022.GIF" wi="969" he="167" /></maths>Similarity(p,C<sub>i</sub>)表示待测文献p与C<sub>i</sub>类文献时间序列的相似度值;Similarity(p,p<sub>j</sub>)表示待测文献p与文献p<sub>j</sub>的时间序列的相似度值,文献p<sub>j</sub>∈C<sub>i</sub>类,j=1,2,…,n(n表示C<sub>i</sub>类中文献的总个数)。
地址 116024 辽宁省大连市甘井子区凌工路2号