发明名称 | 一种中文文本自动校正方法 | ||
摘要 | 本发明公开了一种中文文本自动校正方法,包括如下步骤:a)输入待校对中文文本,按单句对中文文本进行分词预处理;b)按单句查找分词文本中出现的单字、双字或三字及其以上散串;c)采用N-gram模型对分词文本中出现的散串进行连续判断,并结合单字成词概率对每个单句检查文本词级的错误;d)构造纠错知识库生成纠错候选文本。本发明提供的中文文本自动校正方法,按单句查找分词文本中出现的单字、双字或三字及其以上散串,采用N-gram模型对分词文本中出现的散串进行连续判断确定标识错误,并构造纠错知识库生成纠错候选文本,从而将查错和纠错过程很好地结合起来,具有查错速度快,纠错效率高的特点。 | ||
申请公布号 | CN105279149A | 申请公布日期 | 2016.01.27 |
申请号 | CN201510688403.4 | 申请日期 | 2015.10.21 |
申请人 | 上海应用技术学院 | 发明人 | 刘云翔;杜杰;李晓丹;郑力;杜*俊;刘续博 |
分类号 | G06F17/27(2006.01)I | 主分类号 | G06F17/27(2006.01)I |
代理机构 | 上海申汇专利代理有限公司 31001 | 代理人 | 吴宝根 |
主权项 | 一种中文文本自动校正方法,其特征在于,包括如下步骤:a)输入待校对中文文本,按单句对中文文本进行分词预处理;b)按单句查找分词文本中出现的单字、双字或三字及其以上散串;c)采用N‑gram模型对分词文本中出现的散串进行连续判断,并结合单字成词概率对每个单句检查文本词级的错误;d)构造纠错知识库生成纠错候选文本。 | ||
地址 | 200235 上海市徐汇区漕宝路120号 |