主权项 |
一种基于时间序列的科技文献被引用数目预测方法,其特征在于:步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount(month);步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;步骤4:根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长;对长度超过N的时间序列,要对超长部分进行截断;对长度低于N的时间序列,舍弃;N值由用户设定;进行聚类时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树;被引用时间序列X<sub>i</sub>=(X<sub>i1</sub>,X<sub>i2</sub>,…X<sub>i8</sub>):表示文献i的被引用时间序列向量值;被引用时间序列X<sub>j</sub>=(X<sub>j1</sub>,X<sub>j2</sub>,…X<sub>j8</sub>):表示文献j的被引用时间序列向量值;距离d(X<sub>i</sub>,X<sub>j</sub>):表示文献i和j的被引用时间序列的欧几里得距离;距离计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>[</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mn>8</mn></munderover><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>ik</mi></msub><mo>-</mo><msub><mi>X</mi><mi>jk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow>]]></math><img file="FDA0000601428480000011.GIF" wi="674" he="194" /></maths>通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加权平均距离法生成聚类树。类间距离D<sub>pq</sub>:表示类别G<sub>p</sub>,G<sub>q</sub>之间的距离。其中G<sub>p</sub>的元素个数为n<sub>p</sub>,G<sub>q</sub>的元素个数为n<sub>q</sub>.元素间距离d<sub>ij</sub>:表示时间序列i,j之间的距离。类间距离计算公式如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>D</mi><mi>pq</mi></msub><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>n</mi><mi>p</mi></msub><msub><mi>n</mi><mi>q</mi></msub></mrow></mfrac><munder><mi>Σ</mi><mrow><mi>i</mi><mo>∈</mo><msub><mi>G</mi><mi>p</mi></msub></mrow></munder><munder><mi>Σ</mi><mrow><mi>j</mi><mo>∈</mo><msub><mi>G</mi><mi>q</mi></msub></mrow></munder><msub><mi>d</mi><mi>ij</mi></msub></mrow>]]></math><img file="FDA0000601428480000012.GIF" wi="511" he="177" /></maths>通过聚类分析,将集合中的各个文献划分成不同的类,对类中时间序列构建回归模型时,首先划分训练集和验证集,选中时间序列中的一个时间点,把该时间点以前的数据作为训练集,该时间点以后的数据作为验证集;在训练集上建立模型,在验证集上评估模型准确性。最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到的最优预测模型;步骤5:利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目;对于两个文献p与文献p<sub>j</sub>,分别用(X<sub>i1</sub>,X<sub>i2</sub>,…X<sub>i8</sub>)和(X<sub>j1</sub>,X<sub>j2</sub>,…X<sub>j8</sub>)表示对应的时间序列向量值,则文献间时间序列相似度Similarity(p,p<sub>j</sub>)的计算公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>Similarity</mi><mrow><mo>(</mo><mi>p</mi><mo>,</mo><msub><mi>p</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>cos</mi><mi>θ</mi><mo>=</mo><mfrac><mrow><msub><mi>Σ</mi><mi>k</mi></msub><msub><mi>X</mi><mi>ik</mi></msub><mo>×</mo><msub><mi>X</mi><mi>jk</mi></msub></mrow><msqrt><mrow><mo>(</mo><msub><mi>Σ</mi><mi>k</mi></msub><msup><msub><mi>X</mi><mi>ik</mi></msub><mn>2</mn></msup><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>Σ</mi><mi>k</mi></msub><msup><msub><mi>X</mi><mi>jk</mi></msub><mn>2</mn></msup><mo>)</mo></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0000601428480000021.GIF" wi="1029" he="220" /></maths>通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。计算待测文献与各类文献时间序列的相似度的公式如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>Similarity</mi><mrow><mo>(</mo><mi>p</mi><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><mo>×</mo><mo>[</mo><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>Similarity</mi><mrow><mo>(</mo><mi>p</mi><mo>,</mo><msub><mi>p</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow>]]></math><img file="FDA0000601428480000022.GIF" wi="969" he="167" /></maths>Similarity(p,C<sub>i</sub>)表示待测文献p与C<sub>i</sub>类文献时间序列的相似度值;Similarity(p,p<sub>j</sub>)表示待测文献p与文献p<sub>j</sub>的时间序列的相似度值,文献p<sub>j</sub>∈C<sub>i</sub>类,j=1,2,…,n(n表示C<sub>i</sub>类中文献的总个数)。 |