发明名称 语言实体关系分析方法和一种机器翻译装置和方法
摘要 发明公开了一种语言实体关系分析方法,涉及自然语言处理领域,该方法对输入的语串进行全解一体化计算,选出最优语义树。本发明还提供了一种基于此语言实体关系分析方法的机器翻译装置和方法,该翻译装置包括语义知识库模块、语言实体关系分析器、目标语言生成器。本发明提供一种全新的语言处理模型,在程序中,把握自然语言的全部逻辑,充分利用“组合爆炸”,建立完善的语言逻辑框架,基本上解决了语言的“组合爆炸”这个核心问题,能显著提高准确度和翻译速度。本系统没有规则体系的大量产生式规则,也没有统计体系的海量对齐语料和相应深加工资源,在工程上有明显优势。本发明还可为自然语言各种应用提供一个可靠基础。
申请公布号 CN103631770A 申请公布日期 2014.03.12
申请号 CN201310649137.5 申请日期 2013.12.06
申请人 刘建勇;董亦农;尹德春 发明人 刘建勇;董亦农;尹德春
分类号 G06F17/27(2006.01)I;G06F17/28(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种语言实体关系分析方法,其特征在于包括以下步骤:(1):  对输入的语句进行篇章、段落、大句分割,进行步骤(2);然后,在段落、大句范围内,进行缺省指代等知识计算;(2): 对大句分割成小句,进行步骤(3);(3): 小句中的内嵌处理调用步骤(2);内嵌处理完,进行步骤(4);(4): 对小句进行分词,如果有歧义,那么形成有限数目的子句,并对每个子句计算分词歧义权值,对每个子句进行预处理(数字,数量短语,特殊组合短语,时间短语,超长子句处理),对每个子句进行步骤(5);在此层次进行相应的权值计算,选出最优小句;(5): 对子句读取语义知识库信息,对动词、可作模拟动词处理的形容词和数量短语、介词、可带子句的连词等建立分析启动结构;进行步骤(6);(6): 对子句语串进行单句,并联句,形容词句,数量短语句,连动句,单实体句等分析;对于那些具有句子模式的句子,都能将其分解成为单句、多个单句,进行步骤(7);对于单实体句,进行步骤(10); 在此层次进行相应的权值计算,选出最优分析结果;(7): 单句多动词处理,对子句中的多个动词,计算优先权值,进行步骤(8);多个动词处理完,在此层次进行相应的权值计算,选出最优核心动词;(8): 动词多义处理,对于动词的多种意义,分别进行步骤(9);动词多义处理完后,在此层次进行相应的权值计算,选出最优动词单义;(9): 动词多种关系模式处理,每个动词除有自己的基本句子关系模式外,还有变形句子关系模式,变形句子关系模式可以由程序按照基本句子关系模式自动生成;按照每个模式的语言实体情况,对每个语言实体部分,进行步骤(10),每个模式处理完,计算出这个模式的权值,这包括这个模式的多个语言实体的关联和这个模式的上下文方面的权值,以及一些特殊模式自身的权值计算;多种可能的模式处理完后,选出最优动词关系模式;(10): 语言实体处理分别有:纯语言实体分析,空语言实体分析(可以有副词串),句子语言实体分析;如果是句子语言实体分析,填充上下文,调用步骤(6);如果是空语言实体分析,那么进行步骤(11),步骤(12)后,进行全副词串分析,并计算权值;如果是纯语言实体分析,调用步骤(11),步骤(12),步骤(13),步骤(17),步骤(18),进行本语言实体的权值计算;(11): 命名实体组合,进行特殊名词组合串、人名识别、地点识别、机构识别、特殊副词串识别、特殊形容词串识别、复杂组合结构等识别;得到多个组合串,对每个组合串进行步骤(12)处理;(12): 介词组合结构处理:对多个介词,从右向左进行递归组合处理,介词类似动词模式,可以带语言实体,可以带句子,并且分别都可以带后边界;如果是带语言实体 ,那么调用步骤(13);如果是句子调用步骤(6);介词的模式检验在动词模式上下文下进行时,需要填充“需要进行的额外语言实体计算”的上下文; (13): 多语言实体分析,对语串片段按照特殊关联词(如汉语“的,和,或,..”等,英语“that从句”等)进行划分,得到单个语言实体、多个语言实体、形容词修饰串、句子修饰串;对于单个实体、多个语言实体进行步骤(14)处理,对于形容词修饰串进行步骤(15);对句子修饰串进行步骤(16)处理;(14): 语言实体分割,对此时语串按照上下文进行多语言实体分割,并对每个语言实体计算权值(根据语言实体内形容词、副词、核心部分等来设计权值,并且当形容词部分含有一般动词、特殊动词、特殊动词搭配、非形容词词类时,进行相应的权值计算),并且计算这个多语言实体组合的权值;如果有并联关系,那么建立语言实体并联描述结构,并计算相应的权值;(15): 形容词修饰串的分析         对形容词修饰串,配合上下文进行分割检验,并建立形容词修饰描述结构,如果有并联,建立形容词修饰串并联描述结构,并计算权值;此处权值计算需要根据形容词串包含词类情况,特别是当形容词修饰串含有一般动词、特殊动词、特殊动词搭配、非形容词词类时;根据形容词修饰串跟所修饰的语言实体,计算相应的权值;当需要计算形容词修饰串并联情况时,(比如:“我和我的父亲”,“我父亲和小明的父亲”),需要进行相应的权值计算;(16): 句子修饰串的分析对句子修饰串,配合上下文进行检验,调用步骤(6);并建立句子修饰描述结构,如果有并联,建立句子修饰并联描述结构,并计算权值; 根据句子修饰串跟所修饰的语言实体,计算相应的权值;当需要计算句子修饰串并联情况时,需要进行相应的权值计算;(17): 多语言实体和它们的修饰部分的整理       对分析后的多语言实体,形容词修饰串,句子修饰串,以及相应的并联描述结构,进行整理,对每个语言实体,建立起一个单个语言实体描述结构,此结构包括此语言实体本身以及修饰这个语言实体的形容词修饰部分和句子修饰部分以及并联描述;并且在这个层次,对语言实体进行权值计算;并且选择最优的多语言实体组合;此处的语言实体,根据形容词修饰串、句子修饰串以及并联结构,进行权值计算;多个语言实体并排时,也计算相应的权值;(18): 将此语言实体分析结果进行填充,并进行问句和特殊句子中的问词点和特殊检验点的定位;并且,上传上下文语言实体分析结果;(19): 句子模式转换以及归一化处理         按照句子类型以及所包含的单句类型进行模式转换和归一化;(20): 最优语义树的输出           对最优的句子类型,进行最优语义树输出;对于机器翻译系统,直接使用系统内存中的最优语义树。
地址 100070 北京市丰台区科技园区百强大道6号院2号楼30层3018室