主权项 |
一种利用语义信息检索文档的方法,其特征在于:步骤一、建立领域本体:令E为本体实体集合,E={e<sub>1</sub>,e<sub>2</sub>,…,e<sub>n</sub>},n是本体实体总数,为正整数,e<sub>i</sub>为本体实体,1≤i≤n,每个本体实体都是本体的子概念或实例;定义所有本体实体E的label信息及label信息对应的语种,L={l<sub>1</sub>,l<sub>2</sub>,…,l<sub>l</sub>},下标l为正整数,本体实例对应不同语种的不同label信息表示为label<sub>ij</sub>,i≤n且为正整数,j≤l也为正整数,其含义为e<sub>i</sub>对应在l<sub>j</sub>的label信息,n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数;步骤二、为文档建立映射关系:将系统输入的文档D<sub>i</sub>解析文字部分Text<sub>i</sub>通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T={t<sub>1</sub>,t<sub>2</sub>,…,t<sub>m</sub>},其中m为正整数,和词汇t<sub>k</sub>(1≤k≤m)的词频c<sub>k</sub>(1≤k≤m);对于每一个词汇t<sub>k</sub>执行如下操作:1)确定该词汇的语种l<sub>k</sub>;2)找到领域本体中所有本体实体E,如果其拥有与词汇t<sub>k</sub>相同语种的label信息,便比较本体实体e<sub>k</sub>对应在l<sub>k</sub>下的label信息与词汇t<sub>v</sub>的相似度S<sub>kv</sub>,如果相似度大于某一设定的阙值α,0≤α≤1,则认为词汇与本体相似;3)在本体图中标记本体,并累积命中次数ef<sub>ik</sub>=ef<sub>ik</sub>+c<sub>k</sub>·S<sub>kv</sub>,其中ef<sub>ik</sub>表示本体实体e<sub>k</sub>在文档D<sub>i</sub>中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;4)利用累积命中次数ef<sub>ik</sub>,计算出关系强度w<sub>ik</sub>,最后将该映射关系以及关系强度存入数据库中:<maths num="0001"><math><![CDATA[<mrow><msub><mi>w</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>ef</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>df</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow><msqrt><mrow><msub><mi>Σ</mi><mrow><msub><mi>E</mi><mi>k</mi></msub><mo>∈</mo><msub><mi>D</mi><mi>i</mi></msub></mrow></msub><msup><mrow><mo>[</mo><msub><mi>ef</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>df</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0001113487260000011.GIF" wi="686" he="182" /></maths>0≤w<sub>ik</sub>≤1,N为文档总数,每当输入一篇新的文档,该值递增1;ef<sub>ik</sub>为上文提到的命中次数;df<sub>k</sub>为匹配到本体实体e<sub>k</sub>的文档总数;E<sub>k</sub>∈D<sub>i</sub>表示文档D<sub>i</sub>匹配到的所有本体实体;步骤三、对于用户查询,进行语义扩展,将用户查询的关键字与各本体进行比较;如为本体类,则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类;如果该本体为本体属性,则查找该本体属性的所有Domain和Range;将以上扩展的本体标记为扩展本体,并分类分别设定一定的相似度值;步骤四、计算所有文档与查询关键词的匹配度,在实际计算时通过将文档和用户查询式转化为向量形式,计算其余弦相似度Sim(D<sub>i</sub>,Q)为最后的评价指标,按照Sim(D<sub>i</sub>,Q)数值对文档进行递减排序,返回排序后的文档列表。 |