发明名称 |
科技文献检索方法及系统 |
摘要 |
本发明提供一种基于限定词的中文科技文献检索方法,该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;接着基于“的”字,对该检索词条划界,找出前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度,最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于中文科技文献的检索效率。 |
申请公布号 |
CN104166712A |
申请公布日期 |
2014.11.26 |
申请号 |
CN201410398279.3 |
申请日期 |
2014.08.13 |
申请人 |
东北电力大学 |
发明人 |
郭晓利;曲朝阳;潘峰;娄建楼;孙慧宇 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京泛华伟业知识产权代理有限公司 11280 |
代理人 |
王勇;李科 |
主权项 |
一种科技文献检索方法,所述方法包括:步骤1)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果;其中,所述科技文献名称的特征向量空间是通过下列操作得到的:a)提取用于检索的数据集中所有科技文献名称来构成训练集;b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:<img file="FDA0000553221660000011.GIF" wi="1024" he="139" />c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。 |
地址 |
132012 吉林省吉林市船营区长春路169号 |