发明名称 一种利用语义信息检索文档的方法
摘要 本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF‑IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。
申请公布号 CN103744984B 申请公布日期 2017.01.25
申请号 CN201410018112.X 申请日期 2014.01.15
申请人 北京理工大学 发明人 李侃;黄河燕;史树敏;冯冲;栾勇;安韶华
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种利用语义信息检索文档的方法,其特征在于:步骤一、建立领域本体:令E为本体实体集合,E={e<sub>1</sub>,e<sub>2</sub>,…,e<sub>n</sub>},n是本体实体总数,为正整数,e<sub>i</sub>为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;定义所有本体实体E的label信息及label信息对应的语种,L={l<sub>1</sub>,l<sub>2</sub>,…,l<sub>l</sub>},下标l为正整数,本体实例对应不同语种的不同label信息表示为label<sub>ij</sub>,i≤n且为正整数,j≤l也为正整数,其含义为e<sub>i</sub>对应在l<sub>j</sub>的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数;步骤二、为文档建立映射关系:将系统输入的文档D<sub>i</sub>解析文字部分Text<sub>i</sub>通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t<sub>1</sub>,t<sub>2</sub>,…,t<sub>m</sub>},其中m为正整数,和词汇t<sub>k</sub>(1≤k≤m)的词频c<sub>k</sub>(1≤k≤m);对于每一个词汇t<sub>k</sub>执行如下操作:1)确定该词汇的语种l<sub>k</sub>;2)找到领域本体中所有本体实体E,如果其拥有与词汇t<sub>k</sub>相同语种的label信息,便比较本体实体e<sub>k</sub>对应在l<sub>k</sub>下的label信息与词汇t<sub>v</sub>的相似度S<sub>kv</sub>,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似;3)在本体图中标记本体,并累积命中次数ef<sub>ik</sub>=ef<sub>ik</sub>+c<sub>k</sub>·S<sub>kv</sub>,其中ef<sub>ik</sub>表示本体实体e<sub>k</sub>在文档D<sub>i</sub>中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;4)利用累积命中次数ef<sub>ik</sub>,计算出关系强度w<sub>ik</sub>,最后将该映射关系以及关系强度存入数据库中:<maths num="0001"><math><![CDATA[<mrow><msub><mi>w</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>ef</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>df</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow><msqrt><mrow><msub><mi>&Sigma;</mi><mrow><msub><mi>E</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>D</mi><mi>i</mi></msub></mrow></msub><msup><mrow><mo>&lsqb;</mo><msub><mi>ef</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>df</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0001113487260000011.GIF" wi="686" he="182" /></maths>0≤w<sub>ik</sub>≤1,N为文档总数,每当输入一篇新的文档,该值递增1;ef<sub>ik</sub>为上文提到的命中次数;df<sub>k</sub>为匹配到本体实体e<sub>k</sub>的文档总数;E<sub>k</sub>∈D<sub>i</sub>表示文档D<sub>i</sub>匹配到的所有本体实体;步骤三、对于用户查询,进行语义扩展,将用户查询的关键字与各本体进行比较;如为本体类,则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类;如果该本体为本体属性,则查找该本体属性的所有Domain和Range;将以上扩展的本体标记为扩展本体,并分类分别设定一定的相似度值;步骤四、计算所有文档与查询关键词的匹配度,在实际计算时通过将文档和用户查询式转化为向量形式,计算其余弦相似度Sim(D<sub>i</sub>,Q)为最后的评价指标,按照Sim(D<sub>i</sub>,Q)数值对文档进行递减排序,返回排序后的文档列表。
地址 100081 北京市海淀区中关村南大街5号