发明名称 自动新词提取方法和系统
摘要 一种自动提取新词的方法和系统,包括步骤:对原始语料库进行分段,成为分段的语料库;将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;过滤掉假词,输出新词。该方法可以高效的从大量语料中自动提取新词。
申请公布号 TW490654 申请公布日期 2002.06.11
申请号 TW089120663 申请日期 2000.10.04
申请人 万国商业机器公司 发明人 沈丽琴;施勤;柴海新
分类号 G10L15/00 主分类号 G10L15/00
代理机构 代理人 陈长文 台北巿敦化北路二○一号七楼
主权项 1.一种自动提取新词的方法,包括步骤:对原始语料库进行分段,成为分段的语料库;将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;以及过滤掉假词,输出新词。2.如申请专利范围第1项的方法,其特征在于:对原始语料库进行分段的步骤包括利用标点符号或阿拉伯数字及字母字串或新词模板进行分段的步骤。3.如申请专利范围第1或2项的方法,其特征在于:对原始语料库进行分段的步骤还包括利用公共词汇表进行分割的步骤。4.如申请专利范围第1或2项的方法,其特征在于:对分段的语料库进行分割及统计的步骤包括透过构建GAST结构进行分割及统计的步骤。5.如申请专利范围第4项的方法,其特征在于:构建GAST结构的步骤还包括限定子串的长度的步骤。6.如申请专利范围第1.2.4或5项的方法,其特征在于:滤除假词的步骤包括:滤除功能词;滤除那些几乎总是与更长的子串一起出现的子串;以及滤除其出现次数少于预定定限的子串。7.如申请专利范围第1.2.4或5项的方法,其特征在于:对原始语料库进行分段的步骤还包括将预先辨识出的功能词作为分段符进行处理的步骤。8.如申请专利范围第3项的方法,其特征在于:对原始语料库进行分段的步骤还包括将预先辨识出的功能词作为分段符进行处理的步骤。9.如申请专利范围第3项的方法,其特征在于:滤除假词的步骤包括:滤除功能词;滤除那些几乎总是与更长的子串一起出现的子串;以及滤除其出现次数少于预定定限的子串。10.一种自动提取新词的系统,包括:用于将原始语料库分成分段的语料库的装置;用于将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计的装置;以及用于过滤掉假词,输出新词的装置。11.如申请专利范围第10项的系统,其特征在于:用于对原始语料库进行分段的装置包括利用标点符号或阿拉伯数字及字母字串或新词模板进行分段的装置。12.如申请专利范围第10或11项的系统,其特征在于:对原始语料库进行分段的装置还包括利用公共词汇表进行分割的装置。13.如申请专利范围第10或11项的系统,其特征在于:对分段的语料库进行分割及统计的装置包括透过构建GAST结构进行分割及统计的装置。14.如申请专利范围第13项的系统,其特征在于:构建GAST结构的装置还包括用于限定子串的长度的装置。15.如申请专利范围第10.11.13或14项的系统,其特征在于:滤除假词的装置包括:滤除功能词的装置;滤除那些几乎总是与更长的子串一起出现的子串的装置;以及滤除其出现次数少于预定定限的子串的装置。16.如申请专利范围第10.11.13或14项的系统,其特征在于:对原始语料库进行分段的装置还包括将预先辨识出的功能词作为分段符进行处理的装置。17.如申请专利范围第12项的系统,其特征在于:对原始语料库进行分段的装置还包括将预先辨识出的功能词作为分段符进行处理的装置。18.如申请专利范围第12项的系统,其特征在于:滤除假词的装置包括:滤除功能词的装置;滤除那些几乎总是与更长的子串一起出现的子串装置;以及滤除其出现次数少于预定定限(threshold)的子串装置。图式简单说明:图1为本发明的自动新词提取系统的基本原理图;图2为串ababc的AST的例子;图3为包括串"abca""bcab""acbb"的GAST的例子;以及图4为根据本发明的新词提取方法的一达成流程图。
地址 美国