发明名称 |
口语会话中句子边界识别方法 |
摘要 |
口语会话中句子边界识别方法,包括:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;所述切分过程包括步骤:用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。 |
申请公布号 |
CN1271550C |
申请公布日期 |
2006.08.23 |
申请号 |
CN03147553.1 |
申请日期 |
2003.07.22 |
申请人 |
中国科学院自动化研究所 |
发明人 |
宗成庆;刘丁 |
分类号 |
G06F17/30(2006.01);G06F17/00(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
中科专利商标代理有限责任公司 |
代理人 |
戎志敏 |
主权项 |
1.一种口语会话中句子边界识别方法,包括步骤:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。 |
地址 |
100080北京市海淀区中关村南一条1号 |