主权项 |
一种电脑辅助专业名词辞典产生系统,包含有:一资料库模组,包含有旧专业名词储存区及新专业名词储存区,前述旧专业名词系储存有复数旧专业名词;一接收模组,用以接收一输入文档;一重复序列模组,耦合至上述接收模组,该重复序列模组系根据一生物基因学中各类型重复序列的样式来建立基本数学模式,再分别依数学模式编写程式,并将分析所得字、词相关资料整合建成一关联资料库,以找出拥有最长且重覆的字,藉此来达到断词,用以利用重覆片段侦测方法将上述输入文档进行分段断词而形成复数语言单位,其利用以下公式之矩阵Pij,其为一个N*N之矩阵,若二个互相比较的字串,其值为相等,则在矩阵里的(i,j)位址值便由0转变成1,此方法并会试着找出拥有最长且重覆的字,藉此来达到断词;
一统计词频机率模组,耦合至上述重复序列模组及上述资料库模组,用以分析比对所述语言单位,以过滤出旧专业名词、介系词及冠词,而产生出新专业名词储存于新专业名词储放区,该统计词频机率模组系用以评估所述语言单位于所述输入文档及资料库模组储存内容的重要程度,所述语言单位的重要程度是随着输入文档中出现的次
数成正比增加,且同时随着资料库模组之旧有专业名词储放区中出现的次数成反比下降,并利用一逆向文件频率做为评估所述语言单位普遍重要性的度量,用以评估该输入文档内的高语言单位频率,以及所述高语言单位在总输入文档中的低输入文档频率,则判断出高权重的所述语言单位而形成所述新专业名词,以供专家检核,其公式如下:
其中:|D|:所述资料库模组中的输入文档总数;|{d:d ti}|:包含有某一特性语言单位ti的输入文档件数(即ni≠0的输入文档件数),然后:tfidfi,j=tfi,j.idfi;一释明模组,耦合至上述资料库模组,用以释明所述新专业名词,并将释明完成之新专业名词归类成所述旧专业名词,而储存于所述资料库模组之旧专业名词储放区。
|