发明名称 基于PageRank和时间衰减的科技文献重要度评价方法
摘要 本发明为基于PageRank和时间衰减的科技文献重要度评价方法,将与科技文献相关的引用科技文献、作者、发表会议/期刊等影响因子共同构建科技文献的链接网络。基本思想:将与科技文献相关的会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的关系网络转换成有向图,然后基于该有向图计算每个节点的PageRank值,对科技文献和科技文献引用链接进行时间衰减处理,“引用”时间发生时间越近,权值越高,最后根据得到的权威值进行加权处理对科技文献进行权威值排序,从而提高了计算科技文献权威值的可靠性与准确性,可以使用户检索目标科技文献时,在搜索结果数量大的情况下迅速地找到最有权威的科技文献。
申请公布号 CN105740452A 申请公布日期 2016.07.06
申请号 CN201610076847.7 申请日期 2016.02.03
申请人 北京工业大学 发明人 李玉鑑;张甫
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 一种基于PageRank和时间衰减的科技文献重要度评价方法,其特征在于:该方法包括以下步骤:步骤一:收集科技文献数据集,包括科技文献的会议/期刊信息、发表年份信息、科技文献信息及作者信息;步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的邻接关系;步骤三:基于PageRank和时间衰减的科技文献链接网络结构的定义:定义基于PageRank和时间衰减的科技文献链接网络结构的有向图为G&lt;V,E&gt;,V是节点(顶点)集,该网络中含有的节点有会议/期刊(Conference,简称“c”)、发表年份(Year,简称“y”)、科技文献(Paper,简称“p”)、作者(Author,简称“a”);E是边(弧)集,E={&lt;v,w&gt;|v,w∈V},&lt;v,w&gt;表示从v到w的一条边(弧),代表节点之间的权威值传递方向及传递权威值的比例;会议/期刊与发表年份之间的链接关系:&lt;c,y&gt;和&lt;y,c&gt;;发表年份与科技文献之间的链接关系:&lt;y,p&gt;和&lt;p,y&gt;;科技文献与科技文献之间的链接关系:&lt;p,p&gt;;科技文献与作者之间的链接关系:&lt;p,a&gt;和&lt;a,p&gt;;步骤四:连接数据库逐个打开数据库中的信息表,读出基本节点信息(节点ID、节点名称、节点链接状况等),对于读取进来的每个数据元组的数据都需要先进行判断,如果哈希表内已经存在其对应的节点,便直接将该元组的信息整合进节点信息内,而如果不存在对应节点则创立新节点并存入内存中,按步骤三的结构定义构建科技文献链接网络;步骤五:根据构建的科技文献链接网络,将PageRank公式应用到科技文献链接网络的权威值计算中,前半部分表示节点的固有价值,后半部分表示邻接节点传递给它的权威值;d表示衰减因子,0&lt;d&lt;1,一般可取值为0.85,它决定了一个节点固有权威值和通过被转移获得的权威值所占的比重;(1)PR(c)表示会议/期刊的权威值,计算公式如下所示:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>d</mi><mo>*</mo><munder><mo>&Sigma;</mo><mrow><mi>y</mi><mo>&Element;</mo><mi>B</mi><mi>y</mi></mrow></munder><mfrac><mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>*</mo><msub><mi>t</mi><mrow><mi>y</mi><mi>c</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000921809870000011.GIF" wi="1235" he="147" /></maths>PR(y)表示发表年份的权威值,N(y)表示该发表年份对应的会议/期刊的总数,By表示会议/期刊对应的发表年份集,t<sub>yc</sub>表示发表年份的权威值传递给会议/期刊的转移比例,0&lt;t<sub>yc</sub>&lt;1,一般可取值为0.3;(2)PR(y)表示发表年份的权威值,计算公式如下所示:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>d</mi><mo>*</mo><mrow><mo>(</mo><munder><mo>&Sigma;</mo><mrow><mi>c</mi><mo>&Element;</mo><mi>B</mi><mi>c</mi></mrow></munder><mfrac><mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow></mrow></mfrac><mo>*</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>y</mi></mrow></msub><mo>+</mo><munder><mo>&Sigma;</mo><mrow><mi>p</mi><mo>&Element;</mo><mi>B</mi><mi>p</mi></mrow></munder><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>*</mo><msub><mi>t</mi><mrow><mi>p</mi><mi>y</mi></mrow></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000921809870000021.GIF" wi="1451" he="147" /></maths>PR(c)表示发表的会议/期刊的权威值,N(c)表示会议/期刊对应的发表年份的总数,PR(p)表示科技文献p的权威值,B<sub>c</sub>表示发表年份对应的会议/期刊集,B<sub>p</sub>表示发表年份对应的科技文献集,t<sub>cy</sub>表示会议/期刊的权威值传递给发表年份的转移比例,t<sub>py</sub>表示科技文献的权威值传递给发表年份的转移比例,0&lt;t<sub>cy</sub>,t<sub>py</sub>&lt;1,t<sub>cy</sub>一般可取值为0.3,t<sub>py</sub>一般可取值为0.1;(3)PR(p)表示科技文献p的权威值,w<sub>vp</sub>表示科技文献v将自身的权威值传递给被引文献p时的传递权重,其计算公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>W</mi><mi>v</mi><mi>p</mi><mo>=</mo><mfrac><mfrac><mn>1</mn><mrow><mi>X</mi><mi>p</mi><mo>+</mo><mi>b</mi></mrow></mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><mrow><mi>X</mi><mi>p</mi><mo>+</mo><mi>b</mi></mrow></mfrac></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000921809870000022.GIF" wi="1123" he="275" /></maths>其中X<sub>p</sub>是科技文献p被引用时的年龄,X<sub>p</sub>=y<sub>v</sub>‑y<sub>p</sub>+1,y<sub>v</sub>是科技文献v的发表年份,y<sub>p</sub>是科技文献p的发表年份,n是科技文献v所引用的科技文献总数;b是一个平滑因子,用于调整不同年龄的被引用科技文献获得的权重大小,使年龄很小的被引用的科技文献不会获得过多的权值,对于老化快的文献,b应取较小的值,对老化慢的科技文献,b应取较大的值,计算机类科技文献一般取b=5;科技文献p的权威值PR(p)计算公式如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>d</mi><mo>*</mo><mrow><mo>(</mo><mi>P</mi><mi>R</mi><mo>(</mo><mi>v</mi><mo>)</mo><mo>*</mo><mi>W</mi><mi>v</mi><mi>p</mi><mo>+</mo><munder><mo>&Sigma;</mo><mrow><mi>a</mi><mo>&Element;</mo><mi>B</mi><mi>a</mi></mrow></munder><mfrac><mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow></mrow></mfrac><mo>*</mo><msub><mi>t</mi><mrow><mi>a</mi><mi>p</mi></mrow></msub><mo>+</mo><munder><mo>&Sigma;</mo><mrow><mi>y</mi><mo>&Element;</mo><mi>B</mi><mi>y</mi></mrow></munder><mfrac><mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>*</mo><msub><mi>t</mi><mrow><mi>y</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000921809870000023.GIF" wi="1532" he="154" /></maths>令p、v表示科技文献,PR(v)是科技文献v的权威值,其中科技文献v引用了科技文献p,B<sub>v</sub>是引用科技文献p的文献集,B<sub>a</sub>是科技文献的作者集,B<sub>y</sub>是科技文献的发表年份集,t<sub>ap</sub>表示作者的权威值传递给科技文献的转移比例,t<sub>yp</sub>表示发表年份传递给科技文献的转移比例,0&lt;t<sub>ap</sub>,t<sub>yp</sub>&lt;1,t<sub>ap</sub>一般可取值为0.2,t<sub>yp</sub>一般可取值为0.3;(4)PR(a)表示作者的权威值,计算公式如下所示:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>d</mi><mo>*</mo><munder><mo>&Sigma;</mo><mrow><mi>p</mi><mo>&Element;</mo><mi>B</mi><mi>p</mi></mrow></munder><mfrac><mrow><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></mrow></mfrac><mo>*</mo><msub><mi>t</mi><mrow><mi>p</mi><mi>a</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000921809870000024.GIF" wi="1073" he="155" /></maths>PR(p)表示科技文献p的权威值,N(p)表示科技文献对应的作者的总数,B<sub>p</sub>表示作者对应的科技文献集,t<sub>pa</sub>表示科技文献的权威值传递给作者的转移比例,0&lt;t<sub>pa</sub>&lt;1,取值为0.2;(5)经过多次迭代之后,科技文献链接网络中节点的PR值趋近于固定值时输出结果,即得到与科技文献相关的会议/期刊、发表年份、科技文献及作者的PR值;步骤六:综上一篇科技文献的权威值由会议/期刊、发表年份、科技文献及作者的权威值加权计算的公式如下:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>N</mi><mi>R</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>=</mo><mi>&alpha;</mi><mo>*</mo><munder><mo>&Sigma;</mo><mrow><mi>a</mi><mo>&Element;</mo><mi>B</mi><mi>a</mi></mrow></munder><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>+</mo><mi>&beta;</mi><mo>*</mo><munder><mo>&Sigma;</mo><mrow><mi>v</mi><mo>&Element;</mo><mi>B</mi><mi>p</mi></mrow></munder><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>+</mo><mi>&gamma;</mi><mo>*</mo><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow><mo>+</mo><mi>&delta;</mi><mo>*</mo><mi>P</mi><mi>R</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000921809870000031.GIF" wi="1465" he="120" /></maths>其中:α+β+χ+δ=1,α、β、χ、δ代表贡献给科技文献u的百分比,0&lt;α,β,χ,δ&lt;1,一般α、β、χ、δ分别取值为0.4、0.3、0.2、0.1;PR(a)表示作者的权威值,Ba表示科技文献p的作者总数,PR(p)表示科技文献p被引用的参考文献的权威值,Bp表示科技文献p被引用的科技文献总数,PR(c)表示会议/期刊的权威值,PR(y)表示发表年份的权威值;步骤七:结果排序输出,将NR值排序,得到节点即科技文献的排序列表,NR值越大,表示该科技文献越权威。
地址 100124 北京市朝阳区平乐园100号
您可能感兴趣的专利