发明名称 口语会话中句子边界识别方法
摘要 口语会话中句子边界识别方法,包括:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;所述切分过程包括步骤:用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。
申请公布号 CN1271550C 申请公布日期 2006.08.23
申请号 CN03147553.1 申请日期 2003.07.22
申请人 中国科学院自动化研究所 发明人 宗成庆;刘丁
分类号 G06F17/30(2006.01);G06F17/00(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 中科专利商标代理有限责任公司 代理人 戎志敏
主权项 1.一种口语会话中句子边界识别方法,包括步骤:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。
地址 100080北京市海淀区中关村南一条1号