发明名称 一种基于领域本体的语义索引方法
摘要 本发明涉及一种基于领域本体的语义索引方法,包括步骤如下:(1)利用奇异值分解对单词-文档矩阵进行分解处理得到概念词-文档矩阵;(2)首先建立该领域的基本本体知识库,利用该本体知识库构建一个基于领域本体的动态语义模板库;(3)语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引。本发明的有益效果:能很好的解决关键字索引的难于解决识别同义词的缺点,能够获得语义相同或关联的信息;本体的相关陈述的二级索引,能够精化搜索粒度,为搜索结果提供更高的准确度和效率,向用户提供更高级的搜索功能。
申请公布号 CN101388026A 申请公布日期 2009.03.18
申请号 CN200810121366.9 申请日期 2008.10.09
申请人 浙江大学 发明人 吴朝晖;付志宏;姜晓红
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州九洲专利事务所有限公司 代理人 陈继亮
主权项 1. 一种基于领域本体的语义索引方法,其特征在于:包括以下步骤:(1)、利用奇异值分解对单词-文档矩阵进行分解处理:将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,得到最能描述该文档的概念词信息和文档之间的语义关联信息;(2)、基于本体的动态语义模版:首先建立该领域的基本本体知识库,该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,利用该本体知识库构建一个基于领域本体的动态语义模板库;其中的动态语义模板库的含义在于基本本体知识库的基础之上,通过处理该领域的文档,识别新的本体及陈述,丰富本体知识库,得到更完整的语义模板;(3)、基于本体及其相关陈述的二级索引:语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构。
地址 310027浙江省杭州市西湖区浙大路38号浙江大学计算机学院曹光彪东楼505室