一种利用语义信息检索文档的方法,申请号CN201410018112.X-传众专利搜索

发明名称	一种利用语义信息检索文档的方法
摘要	本发明涉及一种利用语义信息检索文档的方法，属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法，降低了用户使用难度；采用基于距离和稠密度的文档——本体映射方法，提高映射的准确率；采用基于语义的检索方法，利用多本体索引文档的方法，并且采用了一种结合本体的TF‑IDF排序方法，提高了查准率；通过本体语义扩充，提高了系统容纳无效关键词能力，提高了查全率。本方法能够显著提高文档检索的准确率，并且没有带来糟糕的用户交互复杂性。
申请公布号	CN103744984B	申请公布日期	2017.01.25
申请号	CN201410018112.X	申请日期	2014.01.15
申请人	北京理工大学	发明人	李侃;黄河燕;史树敏;冯冲;栾勇;安韶华
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种利用语义信息检索文档的方法，其特征在于:步骤一、建立领域本体：令E为本体实体集合，E＝{e<sub>1</sub>,e<sub>2</sub>,…,e<sub>n</sub>}，n是本体实体总数，为正整数，e<sub>i</sub>为本体实体，1≤i≤n，每个本体实体都是本体的子概念或实例；定义所有本体实体E的label信息及label信息对应的语种，L＝{l<sub>1</sub>,l<sub>2</sub>,…,l<sub>l</sub>}，下标l为正整数，本体实例对应不同语种的不同label信息表示为label<sub>ij</sub>，i≤n且为正整数，j≤l也为正整数，其含义为e<sub>i</sub>对应在l<sub>j</sub>的label信息，n和l分别为领域本体的本体实体总数和本体label信息的不同语言类别数；步骤二、为文档建立映射关系：将系统输入的文档D<sub>i</sub>解析文字部分Text<sub>i</sub>通过分词工具对文档进行分词处理；统计出文档中出现的不同词汇T＝{t<sub>1</sub>,t<sub>2</sub>,…,t<sub>m</sub>}，其中m为正整数，和词汇t<sub>k</sub>(1≤k≤m)的词频c<sub>k</sub>(1≤k≤m)；对于每一个词汇t<sub>k</sub>执行如下操作：1)确定该词汇的语种l<sub>k</sub>；2)找到领域本体中所有本体实体E，如果其拥有与词汇t<sub>k</sub>相同语种的label信息，便比较本体实体e<sub>k</sub>对应在l<sub>k</sub>下的label信息与词汇t<sub>v</sub>的相似度S<sub>kv</sub>，如果相似度大于某一设定的阙值α，0≤α≤1，则认为词汇与本体相似；3)在本体图中标记本体，并累积命中次数ef<sub>ik</sub>＝ef<sub>ik</sub>+c<sub>k</sub>·S<sub>kv</sub>，其中ef<sub>ik</sub>表示本体实体e<sub>k</sub>在文档D<sub>i</sub>中的命中次数，初始值为0，查找本体图中的稠密标记区域，并认为该稠密区域的标记本体即为映射本体；4)利用累积命中次数ef<sub>ik</sub>，计算出关系强度w<sub>ik</sub>，最后将该映射关系以及关系强度存入数据库中：<maths num="0001"><math><![CDATA[<mrow><msub><mi>w</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>ef</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>df</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow><msqrt><mrow><msub><mi>Σ</mi><mrow><msub><mi>E</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>D</mi><mi>i</mi></msub></mrow></msub><msup><mrow><mo>[</mo><msub><mi>ef</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mi>log</mi><mrow><mo>(</mo><mi>N</mi><mo>/</mo><msub><mi>df</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0001113487260000011.GIF" wi="686" he="182" /></maths>0≤w<sub>ik</sub>≤1，N为文档总数，每当输入一篇新的文档，该值递增1；ef<sub>ik</sub>为上文提到的命中次数；df<sub>k</sub>为匹配到本体实体e<sub>k</sub>的文档总数；E<sub>k</sub>∈D<sub>i</sub>表示文档D<sub>i</sub>匹配到的所有本体实体；步骤三、对于用户查询，进行语义扩展，将用户查询的关键字与各本体进行比较；如为本体类，则依次找到其一层子本体类、二层子本体类、三层子本体类和直接父类以及通过本体属性直接关联的其他本体类；如果该本体为本体属性，则查找该本体属性的所有Domain和Range；将以上扩展的本体标记为扩展本体，并分类分别设定一定的相似度值；步骤四、计算所有文档与查询关键词的匹配度，在实际计算时通过将文档和用户查询式转化为向量形式，计算其余弦相似度Sim(D<sub>i</sub>,Q)为最后的评价指标，按照Sim(D<sub>i</sub>,Q)数值对文档进行递减排序，返回排序后的文档列表。
地址	100081 北京市海淀区中关村南大街5号