发明名称 一种基于语义空间映射的知识图谱管理方法和系统
摘要 本发明属于文本语义处理、语义网技术领域,具体为一种基于语义空间映射的知识图谱管理方法和系统。本发明方法包括:语义向量构建、语义空间映射、知识图谱管理;知识图谱管理又包括三个分为:语义聚类、语义去重、语义标注。对于知识图谱的边/结点,首先将描述其的文本单元向语义空间投影,并通过向量累积获得其在语义空间上的向量表示;在此基础上,实现知识图谱的多项管理任务;系统包括对应的语义向量构建、语义空间映射、知识图谱管理3个模块。本发明克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的诸如语义聚类、语义去重、语义标注等知识图谱管理任务。
申请公布号 CN104035917A 申请公布日期 2014.09.10
申请号 CN201410253673.8 申请日期 2014.06.10
申请人 复旦大学 发明人 王晓平;肖仰华;汪卫
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 一种基于语义空间映射的知识图谱管理方法,其特征在于具体步骤分为:语义向量构建、语义空间映射、知识图谱管理;其中:(1)语义向量构建的具体步骤如下:是基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量;构建语义向量的训练数据采用维基百科知识库作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库; (2)语义空间映射是将知识图谱中表示边结点的文本映射为语义空间中的向量,具体步骤如下:(2.1)对知识图谱中的边/结点中的词语进行过滤处理,去除其中无语义的停用词;(2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量;(3)知识图谱管理分为三个分步骤:语义聚类、语义去重、语义标注;(3.1)语义聚类的具体步骤如下:对待聚类的边/结点集合,首先基于构建好的语义向量库进行语义空间映射,然后进一步地对获得的这些语义向量进行聚类;(3.2)语义去重的具体步骤如下:对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:<img file="582730dest_path_image002.GIF" wi="289" he="39" />这里,V<sub>i</sub>是待合并集合中对应第i个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度; (3.3)语义标注具体步骤如下:(3.3.1)边/结点模型构建:对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型;同时,手工为每一类关系/实体标定出其对应的类型标签;<img file="2014102536738100001dest_path_image003.GIF" wi="155" he="83" />其中,<i>m<sub>i,j</sub></i>表示第<i>i</i>类中第<i>j</i>个向量,<i>n<sub>i</sub></i>为该类中的样本个数,<img file="765449dest_path_image004.GIF" wi="16" he="42" />为均值向量;在模型构建完成后,即将其添加进边/结点模型库;(3.3.2)边/结点识别 对于待查询的边/结点,在按语义空间映射模块所述步骤获得其语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,其中,对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别;(3.3.3)边/结点语义标注对于上一步骤中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
地址 200433 上海市杨浦区邯郸路220号