主权项 |
1.一种基于关键词的评审专家智能检索与推荐方法,其特征在于该方法的具体步骤是: 步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息; 步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库; 步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向;切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词; 步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合,所述的通用停用词库采用哈工大停用词表; 步骤5.构建专家知识表示模型:利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM=(id,F,WF,T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,V<sub>i</sub>={v<sub>i1</sub>,f(v<sub>i1</sub>),v<sub>i2</sub>,f(v<sub>i2</sub>),...,v<sub>in</sub>,f(v<sub>in</sub>)},v<sub>ij</sub>表示第i个字段中的第j个特征词语,f(v<sub>ij</sub>)表示v<sub>ij</sub>特征词语在所对应的字段内的出现频率权重,计算公式如下: <img file="FDA0000401347430000011.GIF" wi="932" he="178" />根据知识表示模型的定义,评审专家信息的知识表示为: <img file="FDA0000401347430000012.GIF" wi="1073" he="497" />步骤6.索引库构建专家知识表示模型构建完成后,将专家信息索引入库:从基础项目库中读取评审专家的内容项信息;根据步骤4提取出的专家信息特征词;依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库; 步骤7.当用户输入关键词语素时,从关键词库中智能联想地自动提示关键词供用户选择,用户也可不选择自动提示关键词,而是继续输入自己的关键词语素,同时利用关键词统计器实时更新关键词词库; 步骤8.计算关键词和专家信息间的检索相关度:检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算,综合相关度的计算公式如下: <img file="FDA0000401347430000021.GIF" wi="1464" he="75" />其中,<img file="FDA0000401347430000022.GIF" wi="244" he="72" />表示专家信息;归一化上述综合相关度计算公式,检索相关度的计算公式如下: Sim(K,D)<sub>i</sub>=SimComplex(K,D)<sub>i</sub>/SimComplex(K,D)<sub>max</sub>其中,SimComplex(K,D)<sub>i</sub>表示关键词K与第i个专家信息的检索相关度,SimComplex(K,D)<sub>max</sub>表示关键词K与所有专家信息的最大检索相关度; 步骤9.A.对检索到的专家信息进行排序,同时将专家被检索次数记录更新,以便推荐基于用户访问行为的热门专家资源;B.选择不同字段或全字段方式查看专家信息:(1)当用户选择单一字段查看时,这一字段信息与关键词具有较强语义性相关的专家被筛选出,语义相关性较弱的不加入检索结果专家列表;检索结果按检索相关度从高到低排序输出;(2)当用户选择全字段查看时,检索结果直接按检索相关度从高到低排序输出。 步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注,便于用户的对专家信息的详细查看。 |