发明名称 汉语叙词表构建系统
摘要 本发明提供了一种汉语叙词表构建系统,其包括输入设备、系统处理器、存储器、输出设备。系统处理器包括数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。存储器通信连接于系统处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。输出设备通信连接于系统处理器。由此,克服原有人工方法的缺点,节省人力物力,提高汉语叙词表构建效率,能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护;能保证叙词构建的质量,可以支持所有领域的汉语叙词表的构建或信息提取;有益于图书情报与档案管理领域的信息组织和利用,并可以服务于数字图书馆。
申请公布号 CN104102847A 申请公布日期 2014.10.15
申请号 CN201410359650.5 申请日期 2014.07.25
申请人 中国科学技术信息研究所 发明人 曾文;乔晓东;朱礼军;张均胜
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 北京五洲洋和知识产权代理事务所(普通合伙) 11387 代理人 张向琨
主权项 一种汉语叙词表构建系统,其特征在于,包括:输入设备(1),输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出;系统处理器(2),包括:数据处理器(21),通信连接于输入设备(1)且接收由输入设备(1)输出的原始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器(21)处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据,如果所接收的原始数据文件属于符合数据处理器(21)处理的规范化的原始数据文件,则对该原始数据文件直接行进分词和词性标注并输出规范文本数据;叙词识别与抽取器(22),通信连接于数据处理器(21)且接收数据处理器(21)输出的分词和词性标注的规范文本数据,以基于国家标准GB13190‑91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词,抽取的叙词作为选定叙词集合;叙词关系识别与抽取器(23),通信连接于数据处理器(21)以及叙词识别与抽取器(22)并接收数据处理器(21)输出的规范文本数据和叙词识别与抽取器(22)输出的选定叙词集合,以基于国家标准GB13190‑91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取,并将各个叙词的叙词相关关系和属分关系输出;以及叙词表生成器(24),通信连接于叙词识别与抽取器(22)以及叙词关系识别与抽取器(23),接收叙词识别与抽取器(22)输出的选定叙词集合、接收叙词关系识别与抽取器(23)输出的各个叙词的叙词相关关系和属分关系,以基于国家标准GB13190‑91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表;存储器(3),通信连接于系统处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24),存储数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24)各自输出的结果;以及输出设备(4),通信连接于系统处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24),并接收和输出数据处理器(21)所输出的规范文本数据、叙词识别与抽取器(22)所输出的选定叙词集合、叙词关系识别与抽取器(23)所输出的叙词相关关系和属分关系、叙词表生成器(24)所输出的叙词表。
地址 100038 北京市海淀区复兴路15号