发明名称 一种基于图书目录的知识图谱的构建方法
摘要 本发明公开了一种基于图书目录的知识图谱的构建方法。它抽取数字化图书中的目录页,区分目录中条目长度,将长条目用自然语言处理工具进行词性标注得到词性数组,利用连词、标点和词性规则提取出候选节点,然后与短条目一起,去百度百科、互动百科中鉴定并利用目录结构形成上下级关系和并列关系,作为知识图谱的骨架,同时区分出强弱并列关系,分别作为增量补充进上下级关系,并根据以后缀为基础的挖掘噪声数据的算法,从未通过百科鉴定的条目中选取出节点补充进知识图谱,最后,对补充完的知识图谱中的关系,算其权重再进行排序,从而筛选掉噪声。本发明比目前已有的知识图谱有更丰富的节点,更好的可扩展性,及更高的准确率。
申请公布号 CN103729402B 申请公布日期 2017.01.18
申请号 CN201310601668.7 申请日期 2013.11.22
申请人 浙江大学 发明人 鲁伟明;张萌;魏宝刚;庄越挺
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种基于图书目录的知识图谱的构建方法,其特征在于包括以下步骤:1)选择一本书,将其目录页进行光学字符识别实现数字化,并在数字化的目录结构上,按照目录中条目的长度,区分出长条目和短条目两类条目;2)对短条目直接作为一批候选节点,同时将长条目利用开源的自然语言处理工具FudanNLP进行词性标注得到词性数组,然后利用连词、标点和词性规则提取出另外一批候选节点;3)对两批候选节点,首先进行严格过滤,去百度百科、互动百科中鉴定该节点存在与否,通过百度百科、互动百科鉴定的部分利用目录的上下级结构形成上下级关系,利用目录的同级结构形成并列关系,以这两部分作为知识图谱的骨架;4)区分出强弱并列关系,从两种并列关系中分别选取出节点,进行增量补充进上下级关系,丰富上一步得到的知识图谱的骨架;5)根据提出的以后缀为基础的挖掘噪声数据中有用部分的方法,从未通过百度百科、互动百科鉴定的条目中选取出一部分节点补充进知识图谱中;6)对补充完的知识图谱中的每一条关系,算其权重再进行排序,从而筛选掉一部分噪声,实现排序筛选。
地址 310027 浙江省杭州市浙大路38号
您可能感兴趣的专利