发明名称 一种基于语义的水利领域信息检索系统及方法
摘要 本发明公开一种基于语义的水利领域信息检索系统及方法。系统包括如下模块:信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块。方法利用模糊资源描述框架对领域信息进行描述,采用Lucene对水利信息资源构建索引;以水利公文主题词表为基础构建出利领域本体,通过Jena推理机结合水利本体对水利专业词汇进行语义扩展,以Hownet为基础实现对通用词汇进行语义扩展;利用改进的知网语义词汇相似度计算方法计算扩展词汇与检索词的相关度。本发明对检索词进行语义扩展,提高了信息的查全率和查准率。
申请公布号 CN102799677B 申请公布日期 2014.11.12
申请号 CN201210253882.3 申请日期 2012.07.20
申请人 河海大学 发明人 冯钧;唐志贤;卞一路;徐黎明;付言章;盛震宇;任锋;王祥忠;朱忠华;朱祖会;史涯晴;胥世民
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 柏尚春
主权项 一种基于语义的水利领域信息检索系统,其特征在于,包括如下模块:信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块,用于从获取用户查询请求进行查询处理,并按语义相关度排序返回给用户;所述信息获取与处理模块,包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库;其中水利主题爬虫单元利用水利主题词库过滤非水利主题网页;水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述的形式存储到水利主题资源库;Lucene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引;所述语义本体模块,包括水利本体库、知网本体库和语义词汇相似度计算单元;其中水利本体库用于存储水利领域本体及其词汇的相似度;知网本体库用于存储知网本体词汇及知网词汇相似度;所述水利本体库中的水利领域本体是模糊本体;所述词汇相似度均由语义词汇相似度计算单元计算;所述语义查询处理模块,包括查询请求处理单元、模糊语义推理单元、Lucene检索单元和检索结果排序单元;其中查询请求处理单元,用于获取用户的查询请求,并进行分词处理形成查询词集合;模糊语义推理单元,用于结合水利领域本体和知网本体进行语义扩展,形成语义扩展查询词集合;所述Lucene检索单元,用于从水利资源索引库中检索满足查询词集合和语义扩展查询词集合的水利主题资源,形成语义检索结果集合;所述检索结果排序单元,按照语义扩展查询词汇于查询词集合中词汇的语义相似度对语义检索结果进行排序,按照降序将查询结果返回用户。
地址 210098 江苏省南京市鼓楼区西康路1号