发明名称 互联网海量数据中命名实体间关系提取方法及其系统
摘要 本发明公开了一种互联网海量数据中命名实体间关系提取方法,包括以下步骤:网络信息爬取和语料库构建;文本预处理;提取代表短文档特征的关键词;获得代表实体关系的“实体-关系模式”;关系标注,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;实体关系对评估;本发明还公开了一种实现互联网海量数据中命名实体间关系提取方法的系统,包括:网络信息爬取模块、信息预处理模块、特征词提取模块、实体关系提取和评估模块。具有使关系查找系统更加方便扩展和具有较高的运行效率等优点。
申请公布号 CN104933164A 申请公布日期 2015.09.23
申请号 CN201510366176.3 申请日期 2015.06.26
申请人 华南理工大学 发明人 蔡毅;李靖楠;闵华清
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 罗观祥
主权项 一种互联网海量数据中命名实体间关系提取方法,其特征在于,包括以下步骤:网络信息爬取和语料库构建,从百科网站上爬取命名实体以及关于实体的文本解释,并从互联网中存在大量结构化的实体数据,即“种子”数据,这部分信息将作为训练数据指导更大量的实体关系标注;文本预处理,将爬取到的文本进行分词、词性标注和去除停顿词处理;提取代表短文档特征的关键词,利用频繁词提取方法和改进于其的加权熵方法可以获得短文本中表示文本意义的关键词;获得代表实体关系的“实体‑关系模式”,并每一个模式当作一个向量,向量中每一个经过中文分词等预处理后的词语都被赋予权重,模式中包含类别信息;关系标注,即获取“实体关系对”,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;实体关系对评估,对已经产生的“实体‑关系模式”以及候选“实体关系对”评价和筛选,并将通过评估的“实体关系对”作为“种子”继续服务于下一轮命名实体关系的查找与提取。
地址 510006 广东省广州市番禺区广州大学城华南理工大学