发明名称 表意构件电子词典系统的实现方法
摘要 本发明提供一种表意构件电子词典系统,包括:构件提取模块、构件数据库、构件操作接口模块。本发明为计算机语言文字信息处理提供涉足语义进行支持,大幅度提高语言文字信息处理能力,实现“人脑”、“电脑”、“语言文字”三者的协调和互补。
申请公布号 CN102043849B 申请公布日期 2015.03.25
申请号 CN201010597054.2 申请日期 2010.12.20
申请人 惠州市表意软件有限公司 发明人 刘树根
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 杨晓松
主权项 一种表意构件电子词典系统的实现方法,其特征在于,实现该方法的表意构件电子词典系统包括:构件提取模块,读入多语种句对,依次进行查询、比对、提取操作,以提取出表意构件,所述表意构件分为句型、舱模、组串、意群串和习语五种类型;把新提取出来的表意构件添加到相应构件库的相应语种构件字段,构件库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组串库,意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有语种表意构件及一个表意构件码互相映射;构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行查询,而后根据服务指令要求,直接给出或映射给出与查询内容匹配的单项或多项语种的表意构件;组串构件就是一些较大的句舱中,缺乏类似句型的结构,不能提取舱模且由大于三个意群串所组成的句舱内容;组串库,用于存储组串构件,有组串码、英文组串、中文组串、俄文组串字段,相同语意的组串同处一个记录,相应文种的组串存储在相应文种组串字段内,组串码代表了同一记录内各文种组串字段内的各文种组串的语意;所述构件提取模块设置有:配句型子模块,用一语种样本句对与句型库中对应语种的该文句型字段内容进行匹配搜索,如有匹配则输出匹配句型;挖空穴子模块,对调用的句对进行挖句舱操作,输出对应的句型,对调用的句舱进行挖舱眼操作,输出对应的舱模;串意对齐子模块,把一语种的简单句舱或舱眼以词串为单元切分并依次填入参考表该语字段后,逐记录取出查找意群串库的该文串字段,找到后取出同记录的一种或几种文串字段内容;所述构件操作接口模块设置有:直接查询子模块,用于接受命令,不改变参数形式,直接查询库中字段,返还查到,有相应记录或没有查到,无相应记录,用于对意群串库、组串库和习语库的查询;匹配查询子模块,用于接受命令,需事先改变查询参数或/和库内容形式,查询后返回查到,有匹配记录,或没有查到,无匹配记录,用于对当前句例查询句型库返回有或无匹配句型、或对当前句舱内容查询舱模库返回有无匹配舱模信息;直接给出子模块,接受服务指令,当查询返回查到有相应记录或有匹配记录时,直接给出当前库的被查字段内容;映射给出子模块,接受服务指令,当查询返回查到有相应记录或有匹配记录时,给出当前库与被查字段同记录的其它字段内容;更新优化子模块,当存贮五类表意构件的构件库任意其中之一有记录已经被更新优化后,接受服务指令,用新内容覆盖旧内容,与之相关的表、索引也作相应的改动,本方法,包括预设操作和服务指令响应操作;其中,预设操作具体为:S1.构件提取模块,读入多语种句对,依次进行查询、比对、提取操作,以提取出表意构件,所述表意构件分为句型、舱模、组串、意群串和习语五种类型;把新提取出来的表意构件添加到相应构件库的相应语种构件字段,S2.构件库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组串库,意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有语种表意构件及一个表意构件码互相映射;服务指令响应操作具体为:S3.构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行查询,而后根据服务指令要求,直接给出或影射给出与查询内容匹配的单项或多项语种的表意构件,步骤S1所述构件提取模块对多语种句对进行查询、比对、提取操作,提取出句型、舱模、组串、意群串、习语五类表意构件,包括如下步骤:S101.从多语种句对中读入其中的一个双语样本句对;S102.调用配句型子模块搜索句型库返回A、B语匹配句型,若没有匹配句型,执行步骤S103提取新句型,若有匹配句型执行步骤S105套入句型;S103.提取句型,以当前双语样本句对为参数调用挖空穴子模块,分别挖去句舱,留下句型的操作,挖空穴计数器初始值N=0;S104.若当系统从挖空穴子模块返回,并且N≧1时,表示挖句舱提取句型操作完毕,把返回的两个新句型作为句型构件分别存入句型库A文句型、B文句型字段,而后执行步骤S105操作;若当系统从挖空穴子模块返回,且N=0时,表示当前双语样本句对太小不足以分出或出于语种和习俗难以分出句型句舱时则被判定为习语,把返回的作为习语构件分别存入习语库A文习语、B文习语字段;S105.套入句型,把当前双语样本句对对号入座地套入当前匹配句型或套入当前新作句型,作为已经划分出句型、句舱的样本句对暂存;S106.句舱处理,依次取出已经划分出句型、句舱的样本句对当中的一个句舱,开一窗口,上部显示A、B语样本句对,下部显示A、B语当前句舱内容;S107.判断当前句舱是否为简单句舱,是则直接执行步骤S111操作,若否,则进一步判断是否可以提取舱模,若能提取舱模,直接执行步骤S108操作;若不能提取舱模,将当前句舱内容作为组串,存入组串库A、B语组串字段,然后直接执行步骤S111操作;S108.提取舱模,先以当前句舱内容查询舱模库,若查到为已有舱模则直接执行步骤S111操作;若没查到,则需要新作舱模,以当前双语句舱对为参数调用挖空穴子模块,挖去舱眼,留下舱模的操作,挖空穴计数器初始值N=0;S109.当系统从挖空穴子模块返回时,这里表示挖舱眼提取舱模的操作完毕,把返回的两个新舱模作为舱模构件分别存入舱模库A文舱模、B文舱模字段,而后执行步骤S110操作;S110.套舱模,把当前句舱内容对号入座地套入当前舱模或套入新编舱模作为已经划分出舱模、舱眼的有模句舱显示;S111.当前句舱处理完毕,如果当前双语样本句对还有句舱待处理,接续S106直至全部句舱处理完毕;S112.简单句舱和舱眼处理,依次搜索并取出当前句对的一个简单句舱或一个舱眼的内容,以它们为参数调用串意对齐子模块,以词串为单元切分并依次填入参考表A语字段,逐记录取出搜索意群串库的A文串字段,找到后取出同记录的B文串字段内容,当B文串字段内容是当前简单句舱或舱眼所含有时,将B文串字段内容填入参考表B语字段;S113.当系统从串意对齐子模块返回时,参考表内A、B语的词串已经串意对齐、即已成为意群串,然后逐记录地用A、B语字段内容搜索意群串库,仅当无搜索记录时当前记录内容作为新的意群串构件存入意群串库的A文串或B文串字段;S114.如果当前句对没有处理完,执行步骤S111;如果当前句对已经全部处理完,执行步骤S101,进行下一轮句对操作。
地址 516002 广东省惠州市仲恺高新区惠风东二路16号307房