发明名称 中文剖析方法及其装置
摘要 中文剖析装置是一种利用电脑来分析和了解中文的系统。本发明之中文剖析方法及其装置能同时解决中文的各种词汇歧义现象( lexical ambiguities ),包括断词、语法次分类、词性和词义等四方面的歧义性,乃在剖析装置内设有词汇歧义性处理部,藉着已剖析过的子剖析树作为语境限制讯息,并以长词优先法则和使用频率来选择正确可断的语词。合乎文法的词性和语法次分类,以及适当的词义,传回剖析部继续分析。如此,不仅四类词汇歧义现象能够一并解决,而且在处理的过程中有足够的词汇资料、语法和语意知识,帮助解决任何一种歧义现象,故可大大提高剖析的品质。
申请公布号 TW226446 申请公布日期 1994.07.11
申请号 TW081106766 申请日期 1992.08.27
申请人 松下电器产业股份有限公司 发明人 徐嘉惠;欧阳彦一
分类号 G06F15/38;G06F15/40 主分类号 G06F15/38
代理机构 代理人 陈文郎 台北巿南京东路三段二四八号七楼;蔡坤财 台北巿松江路一四八号十二楼之三
主权项 1﹒一种中文剖析方法,其系利用一以树状结 构储存有中文各语词之构词、语法和语义 等词汇资料之词典部,以及一储存有子剖 析树之子剖析树储存部来剖析中文,其特 征在于包含以下步骤: 从上述子剖析树储存部选出音节数最 多的子剖析树,根据该子剖析树自输入中 文字串选出下一个未处理言节的子剖析树 /音节选择步骤; 根据上述词典部所储存之语词之使用 频率、语境限制讯息、长词优先法则而抽 出适当语词及其所属词性、语法次分类和 语表的词汇歧义性处理步骤; 根据上述词典部所储存之词汇资料与 预先储存之构词及语义之文法规则,结合 上述、子剖析树/音节选择步骤选出之音 节数最多的子剖析树与未处理音节来进行 语法和语义分析,遇有词汇歧义问题即交 于前述词汇歧义性处理步骤处理以生成更 大子剖析树并存入前述子剖析树储存部或 予以输出的剖析步骤。 2﹒一种中文剖析装置,其具有一以树状结构 储存有中文各语词之构词、语法和语义等 词汇资料之词典部,以及一储存有子剖析 树之子剖析树储存部;其特征在于还包含 从上述子剖析树储存部取出音节数最 多的子剖析树,根据该子剖析树自输入中 文字串选出下一个未处理音节的子剖析树 /音节选择部; 根据上述词典部所储存之语词之使用 频率、语境限制讯息、长词优先法则而抽 出适当语词及其所属词性、语法分类和语 义的词汇歧衮性处理部; 根据上述词典所储存之词汇资料与预 先储存之批词及语义之文法规则,结合上 述子剖析树/音节选择部所送出之音节数 最多的子剖析树与未处理音节来进行语法 和语义分析,遇有词汇歧义问题即交予前 述词汇歧义性处理部处理以生成更大子剖 析树并存入前述子剖析树储存部或予以输 出的剖析部。图示简单说明: 第1图系本发明之一实施例之中文剖 析装置之构成图。 第2图系子剖析树储存部之资料结构 第3图系词典部所储存词树之资料结 构说明图。 第4图系词典部所储存「笑」字的词 树之资料结构示意图。 第5图系文法部所储存文法规则之资 料结构说明图。 第6图系文法部所储存动词的资料结 构、以L1SP语言所表示之说明图。 第7图系文法部所储存各词及动词特 征値之资料结构图。 第8图系文法部所储存各词特征値之 树结构之资料结构图。 第9图系文法部所储存动词特征値之 树结构之资料结构图。 第10图系本发明之一实施例之中文剖 析装置之动作流程图(其一)。 第11图同上(其二)。 第12图同上(其三)。 第13图同上(其四)。 第14图同上(其五)。 第15图同上(其六)。 第16图系词汇歧义性处理部之动作流 程图。 第17图系子剖析树储存部所储存之起 始子剖析树说明图。 第18图系词典部所储存之对应于音节 「DA4」的词树,以LISP语言所表示的 资料结构示意图。 第19图系( da4 xue2 shengl hu02 意图。 )经由解析后所产生子剖析树的树构造示 意图。 第20图系「da4 xue2 shengl hu02 ]经由解析后所产生子剖析树,以L1SP语 言表示的示意图。 第21图系词典部所储存之对应于音节 「hen 3」的词树,以LISP语言所表示的 资料结构示意图。 第22 图系「 da4 xue2 shengl hu02 hen3」经由解析后所产生子剖析树 的树构造示意图(其一)。 第23图同上(其二)。 第24 图系(da4 xue2 shengl hu02 hen3y0u3 qu4)经由解析后所 产生子剖析树的树构造示意图。 第25 图系「da4 xue2 shengl hu02 hen3 you3 qu4」经由解析后所 得到完整子剖析树的树构造示意图。 第26图系词典部所储存之对应于音节 (vou 3)的词树,以LISP语言所表示的 资料结构示意图。 第27图系词典部所储存之对应于音节 (qu 4 )的词树,以L1SP语言所表示的 资料结构示意图。 第28图系一般的剖析树之示意图。 第29图系以往例之中文剖析装置之构 成图。 第30图系以往例之歧义性解决规则部 所储存规则之示意图。
地址 日本