发明名称 一种基于形式概念分析的数字论文检索方法
摘要 本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。本发明提出的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。
申请公布号 CN103440308B 申请公布日期 2016.08.10
申请号 CN201310377050.7 申请日期 2013.08.27
申请人 北京理工大学 发明人 施重阳;牛振东;张春霞;赵向宇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于形式概念分析的数字论文检索方法,其特征在于:其具体操作步骤包括预处理阶段和检索阶段的操作;所述预处理阶段的操作是:对被检索的某一领域<img file="FDA0000919617450000011.GIF" wi="50" he="55" />的数字论文资源集Z进行预处理,具体为:步骤1:针对领域<img file="FDA0000919617450000012.GIF" wi="49" he="55" />中的数字论文资源集Z中的全部关键词,依次计算每个关键词在领域<img file="FDA0000919617450000013.GIF" wi="47" he="63" />中的数字论文资源集Z中的TF‑IDF值,并按照TF‑IDF值由高到底的顺序对关键词进行排序;然后,将TF‑IDF值最高的n个关键词确定为领域<img file="FDA0000919617450000014.GIF" wi="54" he="55" />中的数字论文资源集的形式背景中的属性,其中,40≤n≤50;步骤2:在步骤1操作的基础上,构建领域<img file="FDA0000919617450000015.GIF" wi="50" he="61" />中的数字论文资源集Z的形式背景表格,具体为:首先建立一张二维表,用符号F表示;二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文,二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词;然后查看每个关键词在领域<img file="FDA0000919617450000016.GIF" wi="50" he="62" />中的数字论文资源集Z的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为1;否则,数字论文与关键词确定的表项值为0;每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景;经过上述操作得到的二维表F被称为领域<img file="FDA0000919617450000017.GIF" wi="53" he="63" />中的数字论文资源集Z的形式背景表格;步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序;步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序;步骤5:选定一个顺序间隔,用符号s表示,其中,3≤s≤20并且s为整数;然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文;将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号F<sub>s</sub>表示;步骤6:在步骤5操作的基础上,在种子论文形式背景表格F<sub>s</sub>中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将领域<img file="FDA0000919617450000021.GIF" wi="51" he="61" />中的数字论文资源集Z的形式背景表格F中该种子论文之前的<img file="FDA0000919617450000022.GIF" wi="150" he="141" />个数字论文加入其前置链表,该种子论文之后的<img file="FDA0000919617450000023.GIF" wi="148" he="143" />个论文加入其后置链表;在前置链表和后置链表中的论文被称为该种子论文的依附论文;步骤7:在步骤5操作的基础上,使用种子论文形式背景表格F<sub>s</sub>构建种子论文概念格,用符号L<sub>s</sub>表示;种子论文概念格L<sub>s</sub>中的每一个节点均称为一个种子形式概念;所述种子形式概念中包含一个对象集和一个属性集;所述对象集为领域<img file="FDA0000919617450000024.GIF" wi="51" he="54" />中的数字论文资源集Z的一个论文子集;所述属性集为领域<img file="FDA0000919617450000025.GIF" wi="49" he="55" />中的数字论文资源集Z的形式背景表格F中属性集合的子集;步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念格L<sub>s</sub>中每个种子形式概念中的种子论文确定其重要性权值;具体为:在种子论文概念格L<sub>s</sub>中任意选取一个种子形式概念,用符号c<sub>s</sub>表示,在种子形式概念c<sub>s</sub>中选取一个种子论文,用符号x表示,通过公式(1)计算种子论文x在种子论文概念格c<sub>s</sub>中的重要性权值,用符号Context_Score(x,c<sub>s</sub>)表示;<maths num="0001"><math><![CDATA[<mrow><mi>C</mi><mi>o</mi><mi>n</mi><mi>t</mi><mi>e</mi><mi>x</mi><mi>t</mi><mo>_</mo><mi>S</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>c</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><mrow><msub><mi>weight</mi><mi>k</mi></msub></mrow></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mrow><msub><mi>weight</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow></mrow></mrow></mfrac><mo>*</mo><mfrac><mi>N</mi><mi>S</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000919617450000026.GIF" wi="1782" he="230" /></maths>其中,N是种子论文概念格L<sub>s</sub>里种子形式概念c<sub>s</sub>中属性集包含的属性个数;M是种子论文概念格L<sub>s</sub>里种子形式概念c<sub>s</sub>中对象集包含的对象个数,即论文数;S是种子论文x拥有的属性个数;这里,weight是种子论文概念格L<sub>s</sub>里种子形式概念c<sub>s</sub>的属性集中某个属性在领域<img file="FDA0000919617450000027.GIF" wi="47" he="54" />中的数字论文资源集Z的TF/IDF值;<img file="FDA0000919617450000028.GIF" wi="277" he="94" />是种子论文概念格L<sub>s</sub>里形式概念c<sub>s</sub>中种子论文x拥有属性的TF/IDF值总和;<img file="FDA0000919617450000029.GIF" wi="286" he="150" />是种子论文概念格L<sub>s</sub>里形式概念c<sub>s</sub>中所有种子论文包含属性的TF/IDF值总和;步骤9:通过公式(2)依次计算种子论文x的依附论文y的相关度,用符号AContext_Score(y,c<sub>s</sub>)表示;<maths num="0002"><math><![CDATA[<mrow><mi>A</mi><mi>C</mi><mi>o</mi><mi>n</mi><mi>t</mi><mi>e</mi><mi>x</mi><mi>t</mi><mo>_</mo><mi>S</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mrow><mo>(</mo><mi>y</mi><mo>,</mo><msub><mi>c</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>S</mi><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi></mrow></msub><mo>-</mo><msub><mi>S</mi><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi></mrow></msub><mo>*</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>SR</mi><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>+</mo><msub><mi>SR</mi><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi></mrow></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000919617450000031.GIF" wi="1782" he="142" /></maths>其中,S<sub>score</sub>是种子论文概念格L<sub>s</sub>里形式概念c<sub>s</sub>中种子论文x在种子论文概念格c<sub>s</sub>中的重要性权值;SR<sub>score</sub>是依附论文y与种子论文x之间的文本相似度值,该相似度通过公式(3)计算得到;<maths num="0003"><math><![CDATA[<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mi>C</mi><mi>o</mi><mi>s</mi><mi>i</mi><mi>n</mi><mi>e</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>s</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>s</mi><mn>2</mn></msub></mrow><mrow><mo>|</mo><mo>|</mo><msub><mi>s</mi><mn>1</mn></msub><mo>|</mo><mo>|</mo><mo>&CenterDot;</mo><mo>|</mo><mo>|</mo><msub><mi>s</mi><mn>2</mn></msub><mo>|</mo><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000919617450000032.GIF" wi="1782" he="127" /></maths>其中,s<sub>1</sub>是论文x的属性向量,s<sub>1</sub>=(s<sub>1,1</sub>,s<sub>1,2</sub>,s<sub>1,3</sub>,...,s<sub>1,n′‑1</sub>,s<sub>1,n′</sub>);s<sub>2</sub>是论文y的属性向量,s<sub>2</sub>=(s<sub>2,1</sub>,s<sub>2,2</sub>,s<sub>2,3</sub>,...,s<sub>2,n′‑1</sub>,s<sub>2,n′</sub>),获取论文x的属性向量s<sub>1</sub>的操作步骤为:对论文x中的全部关键词按照其TF‑IDF值从大到小的顺序排列,然后选取前n′个关键词,5≤n′≤50,分别对应s<sub>1,1</sub>,s<sub>1,2</sub>,s<sub>1,3</sub>,...,s<sub>1,n′‑1</sub>,s<sub>1,n′</sub>;获取论文y的属性向量s<sub>2</sub>的方法与获取论文x的属性向量s<sub>1</sub>的方法相同;经过步骤1至步骤9的操作,完成预处理阶段的操作;所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:步骤10:用户发出一个检索请求,用符号q表示;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似,用符号Q表示,Q为领域<img file="FDA0000919617450000033.GIF" wi="54" he="63" />中的数字论文资源集Z的形式背景表格F中属性集合的子集;<img file="FDA0000919617450000034.GIF" wi="1766" he="77" />其中,intent()代表获取属性集的操作,∧是集合的上确界操作运算符;(X,Y)是L<sub>s</sub>中的任意一个种子形式概念,X表示对象集,Y表示属性集;步骤11:在种子论文概念格L<sub>s</sub>中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合,用符号C<sub>qs</sub>表示;具体操作为:步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念,用(Q<sup>*</sup>,Q)表示,其中Q<sup>*</sup>是Q所对应的对象集;步骤b:使用公式(5)依次计算(Q<sup>*</sup>,Q)与种子论文概念格L<sub>s</sub>中任意一个种子形式概念(P<sub>2</sub>,B<sub>2</sub>)之间的相似度;<maths num="0004"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mo>(</mo><mrow><mo>(</mo><msub><mi>P</mi><mn>1</mn></msub><mo>,</mo><msub><mi>B</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mrow><mo>(</mo><msub><mi>P</mi><mn>2</mn></msub><mo>,</mo><msub><mi>B</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>)</mo><mo>=</mo><mi>&omega;</mi><mfrac><mrow><mo>|</mo><mrow><mo>(</mo><mrow><msub><mi>P</mi><mn>1</mn></msub><mo>&cap;</mo><msub><mi>P</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mrow><mo>(</mo><msub><mi>P</mi><mn>1</mn></msub><mo>&cap;</mo><msub><mi>P</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mi>u</mi><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&omega;</mi><mo>)</mo></mrow><mfrac><mrow><mo>|</mo><mrow><mo>(</mo><mrow><msub><mi>B</mi><mrow><mn>1</mn><mi>L</mi></mrow></msub><mo>&cap;</mo><msub><mi>B</mi><mrow><mn>2</mn><mi>L</mi></mrow></msub></mrow><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mrow><mo>(</mo><msub><mi>B</mi><mrow><mn>1</mn><mi>L</mi></mrow></msub><mo>&cap;</mo><msub><mi>B</mi><mrow><mn>2</mn><mi>L</mi></mrow></msub><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mrow><mo>(</mo><mi>e</mi><mo>-</mo><mi>r</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000919617450000041.GIF" wi="1797" he="143" /></maths>其中,Sim((P<sub>1</sub>,B<sub>1</sub>),(P<sub>2</sub>,B<sub>2</sub>))表示种子形式概念(P<sub>1</sub>,B<sub>1</sub>)与(P<sub>2</sub>,B<sub>2</sub>)之间的相似度;P<sub>1</sub>=Q<sup>*</sup>,B<sub>1</sub>=Q;ω是一个权值参数,0≤ω≤1,用户可以调整它以获得满意的结果;m是对象集P<sub>1</sub>和P<sub>2</sub>中的非共有对象集的势的最大值,B<sub>1L</sub>和B<sub>2L</sub>分别是B<sub>1</sub>和B<sub>2</sub>在种子论文概念格L<sub>s</sub>的下近似,根据公式(4)计算获取;e是属性集B<sub>1L</sub>和B<sub>2L</sub>中的非共有属性集的势的最大值,其中“势”指用来度量集合规模大小的属性,对于有限集合,用集合的元素个数来进行度量;u是对象集P<sub>1</sub>和P<sub>2</sub>中的非共有对象集之间的信息内容相似度的和的最大值,r是属性集B<sub>1L</sub>和B<sub>2L</sub>中的非共有属性集之间的信息内容相似度的和的最大值;所述计算对象集P<sub>1</sub>和P<sub>2</sub>中的非共有对象集之间的信息内容相似度以及属性集B<sub>1L</sub>和B<sub>2L</sub>中的非共有属性集之间的信息内容相似度可通过公式(6)计算得到:<maths num="0005"><math><![CDATA[<mrow><msub><mi>i</mi><mrow><mi>s</mi><mi>i</mi><mi>m</mi></mrow></msub><mrow><mo>(</mo><msub><mi>m</mi><mn>1</mn></msub><mo>,</mo><msub><mi>m</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>2</mn><mi>l</mi><mi>o</mi><mi>g</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><msup><mi>m</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><msub><mi>m</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mi>l</mi><mi>o</mi><mi>g</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><msub><mi>m</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000919617450000042.GIF" wi="1764" he="142" /></maths>其中,i<sub>sim</sub>(m<sub>1</sub>,m<sub>2</sub>)为名词m<sub>1</sub>和m<sub>2</sub>的信息内容相似度;m<sub>1</sub>和m<sub>2</sub>分别为对象集P<sub>1</sub>和P<sub>2</sub>中的给定名词,或者是属性集B<sub>1L</sub>和B<sub>2L</sub>中的给定名词;m'是一个拥有名词m<sub>1</sub>和m<sub>2</sub>共有的最大信息内容的一个名词,<img file="FDA0000919617450000043.GIF" wi="773" he="110" />S(m<sub>1</sub>,m<sub>2</sub>)是名词m<sub>1</sub>和m<sub>2</sub>共有的上限名词集;<img file="FDA0000919617450000044.GIF" wi="269" he="126" />f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数;N是S(m<sub>1</sub>,m<sub>2</sub>)中所有名词在领域<img file="FDA0000919617450000045.GIF" wi="47" he="63" />中的数字论文资源集Z的所有文本中出现次数的总和;步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种子论文概念格L<sub>s</sub>中的所有种子形式概念进行排序,将相似度大于某一阈值σ的种子形式概念放入集合C<sub>qs</sub>中,0.2≤σ≤1;步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合C<sub>qs</sub>中的种子形式概念中的每篇论文与检索请求q进行相关度计算;任意在形式概念集合C<sub>qs</sub>中选定一个形式概念,用符号c<sub>qi</sub>表示,从形式概念c<sub>qi</sub>所包含的种子论文以及种子论文的依附论文中选择一个论文p<sub>q</sub>,论文p<sub>q</sub>在形式概念c<sub>qi</sub>中与检索请求q的相关度可由公式(7)计算获得;R(p<sub>q</sub>,q,c<sub>qi</sub>)=w<sub>context</sub>·L_Context_Score(p<sub>q</sub>,c<sub>qi</sub>)+w<sub>matching</sub>·Matching_Score(p<sub>q</sub>,q)   (7)其中,R(p<sub>q</sub>,q,c<sub>qi</sub>)是论文p<sub>q</sub>在形式概念c<sub>qi</sub>中与检索请求q的相关度;w<sub>context</sub>和w<sub>matching</sub>是论文p<sub>q</sub>在形式概念c<sub>qi</sub>中的重要性权值和论文p<sub>q</sub>与检索请求q之间的相似程度的权重,w<sub>context</sub>和w<sub>matching</sub>的值由人为选取,w<sub>context</sub>+w<sub>matching</sub>=1,并且w<sub>matching</sub>>w<sub>context</sub>;L_Context_Score(p<sub>q</sub>,c<sub>qi</sub>)是论文p<sub>q</sub>在形式概念c<sub>qi</sub>中的重要性的权值,如果p<sub>q</sub>是种子论文,则重要性权值由公式(1)计算获得,如果p<sub>q</sub>是种子论文的附属论文,则重要性权值由公式(2)计算获得;Matching_Score(p<sub>q</sub>,q)是论文p<sub>q</sub>与检索请求q之间的相似程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作;步骤13:根据步骤12得到的检索请求q获取到的形式概念集合C<sub>qs</sub>中的种子形式概念c<sub>qi</sub>中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示;步骤14:重复步骤12至步骤13的操作,直到对形式概念集合C<sub>qs</sub>中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户;步骤15:在步骤12操作的基础上,通过公式(8)计算论文p<sub>q</sub>针对检索请求q的在形式概念集合C<sub>qs</sub>中的全局相关度,用符号R(p<sub>q</sub>,q)表示;<maths num="0006"><math><![CDATA[<mrow><mi>R</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>q</mi></msub><mo>,</mo><mi>q</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>p</mi></msub></msubsup><mo>(</mo><msub><mi>w</mi><mrow><mi>P</mi><mi>a</mi><mi>p</mi><mi>e</mi><mi>r</mi><mi> </mi><mi>Re</mi><mi>l</mi><mi>e</mi><mi>v</mi><mi>a</mi><mi>n</mi><mi>c</mi><mi>y</mi></mrow></msub><mo>&CenterDot;</mo><msub><mi>R</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mi>p</mi><mi>q</mi></msub><mo>,</mo><mi>q</mi><mo>,</mo><msub><mi>c</mi><mrow><mi>q</mi><mi>l</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>w</mi><mrow><mi>c</mi><mi>o</mi><mi>n</mi><mi>t</mi><mi>e</mi><mi>x</mi><mi>t</mi></mrow></msub><mo>&CenterDot;</mo><msub><mi>R</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>c</mi><mrow><mi>q</mi><mi>l</mi></mrow></msub><mo>,</mo><mi>q</mi><mo>)</mo></mrow><mo>)</mo></mrow><msub><mi>n</mi><mi>p</mi></msub></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000919617450000051.GIF" wi="1804" he="175" /></maths>其中,n<sub>p</sub>是在形式概念集合C<sub>qs</sub>中包含论文p<sub>q</sub>的形式概念的个数;R<sub>1</sub>(p<sub>q</sub>,q,c<sub>ql</sub>)是在形式概念c<sub>ql</sub>中检索请求q与论文p<sub>q</sub>的相关程度,可由公式(7)计算获得;R<sub>2</sub>(c<sub>ql</sub>,q)是形式概念c<sub>ql</sub>与检索请求q的相关程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作;w<sub>PaperRelevancy</sub>和w<sub>context</sub>是R<sub>1</sub>和R<sub>2</sub>各自的权重,w<sub>PaperRelevancy</sub>和w<sub>context</sub>的值由人为设定,w<sub>PaperRelevancy</sub>+w<sub>context</sub>=1,并且w<sub>PaperRelevancy</sub>>w<sub>context</sub>;步骤16:重复步骤12和步骤15的操作,直到对形式概念集合C<sub>qs</sub>中的所有形式概念均进行了步骤12和步骤15的操作;步骤17:在步骤16操作的基础上,对形式概念集合C<sub>qs</sub>中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
地址 100081 北京市海淀区中关村南大街5号