发明名称 四层结构的中文文本正则化体系及实现
摘要 本发明提出了一种全新的适用于中文文本的正则化方法。该方法采用机器学与规则相结合的方法,大大提高了中文文本正则化的准确率。首先对指定语料库中非标准词进行分析。归纳非标准词的种类,并利用有限自动机的方法构建词典,以用来识别真实文本中的非标准词。然后选取其中占绝大多数的几个类别,选取特征,建立模板,利用条件随机场算法建模,其余部分利用适当规则进行处理,并且给予其子分类,进一步提高非标准词识别的准确率,消去其歧义。同时针对上面识别时遇到的错误,利用错误驱动的规则学方法,选取最优规则,进一步提高其准确率。最后通过标准读音生成模块产生非标准词的正确读音。基于上述的方法,本发明构思了一种四层结构的中文文本正则化体系。这种四层体系可以大大提高中文文本正则化的准确性和高效性。
申请公布号 CN101661462B 申请公布日期 2012.12.12
申请号 CN200910089359.X 申请日期 2009.07.17
申请人 北京邮电大学 发明人 董远;周涛
分类号 G06F17/27(2006.01)I;G06F17/28(2006.01)I;G06N1/00(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种四层结构的中文文本正则化的方法,对真实文本中的非标准词进行识别和消岐,并给出其正确读音,该方法包括四个阶段:阶段一,由指定语料库中选取非标准词进行分类,利用有限自动机的方法生成词典,利用该词典对真实文本中的非标准词进行识别,并给出其类别标签的方法;和阶段二,采用半自动的特征选择方法进行歧义非标准词的特征选取和描述,由语料库中最常见的5种非标准词,选取适当的特征模板,利用条件随机场算法进行建模,并利用该模型进一步消除非标准词的歧义,给出其子类别标签的方法;和阶段三,由对以上识别中的错误进行分析,利用规则学习的方法提炼出最优规则,进一步消去非标准词的歧义,并提高识别的准确率的方法;和阶段四,由以上生成的标签信息,生成非标准词相应标准读音的方法;其中,阶段一中所述对非标准词进行分类并利用有限自动机的方法生成词典用于非标准词识别包括下述步骤:步骤1,非标准词分类:根据数字串与不同符号的不同组合,对其进行分析和归纳,得到非标准词的基本分类;步骤2,非标准词词典:通过非标准词的基本类型进行拓展,得到覆盖面广的非标准词类型特征模板,并利用有限自动机的方法构建词典;步骤3,非标准词识别;根据不同长度非标准词所含信息量的不同,结合有限自动机生成的词典,在真实文本的正则化过程中采用最长匹配策略来识别非标准词;阶段二中所述采用半自动的特征选择方法进行歧义非标准词的特征选取和描述的方法,具体为:产生非标准词、非标准词长度、上一个非标准词的类型、距离前一个标点符号的距离和距离后一个标点符号的距离,5种特征并选取决定性作用的两个非标准词、非标准词长度,进行窗口拓展和组合,一共设计30种模板特征;特征选取和描述中所涉及的半自动特征选择方法,其技术特征为:手动设计一个特征模板,在上面定义所有有效的候选模板,然后每次选择其中的一个或者几个特征进行实验,并进行测试,选取出效果最明显的;特征选取和描述中所涉及的窗口拓展方法,其技术特征为:窗口长度为2进行字符串上下文的展开,这样非标准词扩展为word‑2,word‑1,word,word+1,word+2,5种新特征,同时非标准词长度扩展为WordLength‑2,WordLength‑1,WordLength,WordLength+1,WordLength+2这5种新特征;特征选取和描述中所涉及的组合方法,其技术特征为:非标准词和非标准词长度以Word‑1WordLength‑1、Word0WordLength0、Word+1WordLength+1这三种方式组合成三种新 特征;阶段二中所述利用条件随机场算法建模,并对非标准词进行消岐包括下述步骤:步骤1,采用上述得到的新特征产生30中特征模板,分别对5种歧义非标准词建立条件随机场模型,剩下的歧义非标准词采用规则方法进行处理;其中5种歧义非标准词,具体为:“digits”、“year”、“year‑range”、“hyphen”、“slash”;步骤2,条件随机场模型类别选取:通过分析语料库中各类非标准词的出现频率,同时结合条件随机场算法的特点,选出最适合的模型类别,通过分析歧义非标准词,选取了5个类别进行条件随机场算法建模;步骤3,条件随机场模型特征设计:通过对步骤2中所述5种类型的文字特点的分析,本发明采用了一种半自动的特征选择方法,首先,手动设计一个特征模板,在上面定义所有有效的候选模板,然后每次选择其中的一个或者几个特征进行实验,进行测试,选取出效果最明显的,即包含非标准词信息量最大的特征,并结合上下文,通过分析不同特征对于不同类别非标准词所含信息量的不同,决定其权重大小,并对各种特征进行拓展与组合,设计对非标准词类别最具决定性的、最合适的特征模板;阶段三中所述的错误分析包括:1)利用基于错误驱动的规则学习方法进行非标准词的进一步消岐,并提高准确率的方法;2)在特征的选取上,采用与阶段二中条件随机场模型训练相同的特征,并考虑到这些特征在实际应用中对非标准词识别的重要性的不同,同时也为了提高规则对非标准词实际识别与消岐能力,在原来5种基本特征的基本上,进行适当拓展,共设计了15种含信息量较大的的特征模板;阶段四中所述生成非标准词相应标准读音的方法包括两个方面:1)利用一一映射的转换规则,由非标准词的分类信息产生标准读音的方法;2)根据整数与小数的不同特征,采取两级结构生成标准读音的方法。
地址 100876 北京市海淀区西土城路10号