发明名称 |
一种基于双向递归神经网络的分词方法 |
摘要 |
本发明涉及自然语言处理领域,特别涉及一种基于双向递归神经网络的分词方法,本发明通过现有的词典和人工校正的半自动方法来标注训练样本,在进行分词时应用了双向递归神经网络的技术对每一个字的类型概率进行预测,在分类概率的基础上结合前后文找出总体上概率最优的分类序列,将分类序列中相邻的属于词的前、中、后部分的字作为一个整体切分出来;克服了单向递归神经网络预测过程中信息不对称的问题,使得待识别的自然语言序列的分类判断结果即依赖了前文信息又依赖了后文信息;使得分词判断的准确率更高,对新词的识别效果显著,为信息分析提供一种有效的分词途径。 |
申请公布号 |
CN105893354A |
申请公布日期 |
2016.08.24 |
申请号 |
CN201610286223.8 |
申请日期 |
2016.05.03 |
申请人 |
成都数联铭品科技有限公司 |
发明人 |
刘世林;何宏靖 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于双向递归神经网络的分词方法,其特征在于,使用双向递归神经网络来预测待分词文本中各个字的分类概率;在此基础上结合解码算法找出最优化的分类概率序列;将序列中相邻的属于词的开始部分、K个中间部分和结束部分对应的字作为一个词切分出来,其中K为≥0的正整数。 |
地址 |
610041 四川省成都市高新区天府大道中段666号,希顿国际广场B栋1005 |