发明名称 一种基于关键词的评审专家智能检索与推荐方法
摘要 本发明公开了一种基于关键词的评审专家智能检索与推荐方法。本发明具体包括如下步骤:步骤1:将专家信息主要文本切分成子串序列并进行中科院ICTCLAS分词,对分词结果进行停用词过滤得到词语集合;步骤2:分字段提取每个专家信息的特征词;步骤3:基于特征词所在字段和权值构建专家知识表示模型,并建立专家信息索引库;步骤4:当用户输入关键词时会根据检索词库进行自动提示,同时利用检索词统计器实时更新检索词词库;步骤5:基于语义等信息计算关键词和专家信息间的检索相关度;步骤6:根据匹配度从高到低列出相关的专家。本发明通过输入关键词实现专家信息的智能全文检索以及推荐,更准确地检索出与待审科技项目相匹配的专家。
申请公布号 CN103605665B 申请公布日期 2017.01.11
申请号 CN201310511342.5 申请日期 2013.10.24
申请人 杭州电子科技大学 发明人 徐小良;吴仁克;郑杨;潘翔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人 杜军
主权项 一种基于关键词的评审专家智能检索与推荐方法,其特征在于该方法的具体步骤是:步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息;步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库;步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向;切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词;步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合,所述的通用停用词库采用哈工大停用词表;步骤5.构建专家知识表示模型:利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM=(id,F,WF,T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,V<sub>i</sub>={v<sub>i1</sub>,f(v<sub>i1</sub>),v<sub>i2</sub>,f(v<sub>i2</sub>),...,v<sub>in</sub>,f(v<sub>in</sub>)},v<sub>ij</sub>表示第i个字段中第j个特征词语,f(v<sub>ij</sub>)表示v<sub>ij</sub>特征词语在所对应的字段内的出现频率权重,计算公式如下:<maths num="0001"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000990358470000011.GIF" wi="349" he="183" /></maths>根据知识表示模型的定义,评审专家信息的知识表示为:<img file="FDA0000990358470000021.GIF" wi="1125" he="495" />步骤6.索引库构建专家知识表示模型构建完成后,将专家信息索引入库:从基础项目库中读取评审专家的内容项信息;根据步骤4提取出的专家信息特征词;依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库;步骤7.当用户输入关键词语素时,从关键词库中智能联想地自动提示关键词供用户选择,用户也可不选择自动提示关键词,而是继续输入自己的关键词语素,同时利用关键词统计器实时更新关键词词库;步骤8.计算关键词和专家信息间的检索相关度:检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算,综合相关度的计算公式如下:SimComplex(K,D)=φ×SimFSEMW(K,D)+(1‑φ)×SimFChracterW(K,D);其中,<img file="FDA0000990358470000022.GIF" wi="174" he="47" />D表示专家信息;归一化上述综合相关度计算公式,检索相关度的计算公式如下:Sim(K,D)<sub>i</sub>=SimComplex(K,D)<sub>i</sub>/SimComplex(K,D)<sub>max</sub>;其中,SimComplex(K,D)<sub>i</sub>表示关键词K与第i个专家信息的检索相关度,SimComplex(K,D)<sub>max</sub>表示关键词K与所有专家信息的最大检索相关度;所述的关键词与专家信息特征词语的语义相似度的计算过程是:在评审专家知识表示模型中,字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重,其表示为V<sub>i</sub>={v<sub>i1</sub>,f(v<sub>i1</sub>),v<sub>i2</sub>,f(v<sub>i2</sub>),...,v<sub>in</sub>,f(v<sub>in</sub>)},特征词频率权重越大,表示这个特征词越能够反映该字段的主题,定义关键词与专家信息的某个字段信息的语义相关度计算公式为:<maths num="0002"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mi>F</mi><mi>S</mi><mi>E</mi><mi>M</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>F</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>&lsqb;</mo><mi>S</mi><mi>E</mi><mi>M</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>f</mi><msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow></msub></mrow><mrow><mi>f</mi><msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>-</mo><mi>f</mi><msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mi>min</mi></msub></mrow></mfrac><mo>)</mo></mrow><mo>&rsqb;</mo><mo>;</mo></mrow>]]></math><img file="FDA0000990358470000031.GIF" wi="1157" he="149" /></maths>上述公式中,n为字段内特征词个数,f(t)表示检索特征词t在字段F中频率权重,f(t)<sub>max</sub>表示最大频率权重,f(t)<sub>min</sub>表示最小频率权重,SimSEM(K,t)为检索关键词和专家信息特征词的大于阀值τ的语义相似度值,0<τ<1,n为对应的词语个数,关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算;在计算这个特征词与关键词的相关度时,特征词出现次数越多,则应突出这些词的贡献,因子1+(f(t)‑f(t)<sub>min</sub>)/(f(t)<sub>max</sub>‑f(t)<sub>min</sub>)适当地加强关键词与专家信息特征词的语义相似度值权重;特别地,如果关键词K与特征词t相同,则SimSEM(K,t)=1,即关键词语特征词相同,即两个词语是精确匹配的;根据评审专家的知识表示模型的表示结构TM=(id,F,WF,T,V),每个专家信息由若干个专家字段构成,每个字段的重要性不同,字段权重也不同,将关键词语专家各个字段信息的语义相关度加权求和,得到关键词与评审专家整体信息的语义相关度,则关键词与评审专家整体信息的语义相关度的计算公式为:<maths num="0003"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mi>F</mi><mi>S</mi><mi>E</mi><mi>M</mi><mi>W</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><msub><mi>wf</mi><mi>i</mi></msub><mo>&times;</mo><mi>S</mi><mi>i</mi><mi>m</mi><mi>F</mi><mi>S</mi><mi>E</mi><mi>M</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>F</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000990358470000032.GIF" wi="902" he="109" /></maths>其中,wf分别为字段权重参数,t为字段总数;所述的关键词与专家信息特征词语的语素相似度的计算过程是:汉语中绝大多数词语的同义词、含有相同语素这一特点,语素相似度占重要的部分,比较两个词语中相同语素的个数,若相同语素的个数越多,则相似度就越大;引入语素相似度,将汉语的构词特征和计算机检索技术结合起来,它是辅助识别同义词的有效方法,在计算个别词语语义相似度不好的情况下,改善语义相似度的计算;语素相似度的计算公式为:<maths num="0004"><math><![CDATA[<mrow><mi>S</mi><mi>I</mi><mi>M</mi><mi>C</mi><mi>h</mi><mi>a</mi><mi>r</mi><mi>a</mi><mi>c</mi><mi>t</mi><mi>e</mi><mi>r</mi><mrow><mo>(</mo><mi>A</mi><mo>,</mo><mi>B</mi><mo>)</mo></mrow><mo>=</mo><mn>2</mn><mo>&times;</mo><mfrac><mrow><mi>S</mi><mi>a</mi><mi>m</mi><mi>e</mi><mi>C</mi><mrow><mo>(</mo><mi>A</mi><mo>,</mo><mi>B</mi><mo>)</mo></mrow></mrow><mrow><mi>l</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>+</mo><mi>l</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>B</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000990358470000033.GIF" wi="776" he="120" /></maths>其中,len(A)和len(B)是词语A和词语B的长度,SameC(A,B)表示词语A和词语B中相同语素的个数;与求解关键词与专家信息的某个字段信息的语义相似度原理相同,关键词与专家信息的某个字段信息的语素相关度计算公式为:<maths num="0005"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mi>F</mi><mi>C</mi><mi>h</mi><mi>r</mi><mi>a</mi><mi>c</mi><mi>t</mi><mi> </mi><mi>e</mi><mi>r</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>F</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>&lsqb;</mo><mi>S</mi><mi>I</mi><mi>M</mi><mi>C</mi><mi>h</mi><mi>r</mi><mi>a</mi><mi>c</mi><mi>t</mi><mi>e</mi><mi> </mi><mi>r</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>f</mi><msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mi>min</mi></msub></mrow><mrow><mi>f</mi><msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>-</mo><mi>f</mi><msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mi>min</mi></msub></mrow></mfrac><mo>)</mo></mrow><mo>&rsqb;</mo><mo>;</mo></mrow>]]></math><img file="FDA0000990358470000041.GIF" wi="1368" he="149" /></maths>其中,f(t)表示检索特征词t在字段F中频率权重,n为字段内特征词个数;与求解关键词与专家信息信息的语义相似度原理相同,关键词与专家信息的语素相关度计算公式为:<maths num="0006"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mi>F</mi><mi>C</mi><mi>h</mi><mi>r</mi><mi>a</mi><mi>c</mi><mi>t</mi><mi> </mi><mi>e</mi><mi>r</mi><mi>W</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>D</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><msub><mi>wf</mi><mi>i</mi></msub><mo>&times;</mo><mi>S</mi><mi>i</mi><mi>m</mi><mi>F</mi><mi>C</mi><mi>h</mi><mi>r</mi><mi>a</mi><mi>c</mi><mi>t</mi><mi> </mi><mi>e</mi><mi>r</mi><mrow><mo>(</mo><mi>K</mi><mo>,</mo><mi>F</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000990358470000042.GIF" wi="1005" he="111" /></maths>其中,wf分别为字段权重参数,t为字段总数;步骤9.A.对检索到的专家信息进行排序,同时将专家被检索次数记录更新,以便推荐基于用户访问行为的热门专家资源;B.选择不同字段或全字段方式查看专家信息:(1)当用户选择单一字段查看时,这一字段信息与关键词具有较强语义性相关的专家被筛选出,语义相关性较弱的不加入检索结果专家列表;检索结果按检索相关度从高到低排序输出;(2)当用户选择全字段查看时,检索结果直接按检索相关度从高到低排序输出;步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注,便于用户的对专家信息的详细查看。
地址 310018 浙江省杭州市下沙高教园区2号大街