发明名称 |
一种基于状态转移与神经网络的汉语组块分析方法 |
摘要 |
本发明提出了一种基于状态转移与神经网络的汉语组块分析方法,包括:将组块分析任务转换成序列化标注任务,使用基于状态转移的框架对句子进行标注,在标注的过程中使用前向神经网络来对每个状态将要进行的转移操作进行打分,并将利用双向长短记忆神经网络模型学到的词以及词性标注的分布式表示特征作为标注模型的附加信息特征,从而提高组块分析的精确度。对比其它汉语组块分析技术,该汉语组块分析方法使用的基于状态转移的框架可以更灵活地添加组块级别的特征,同时神经网络的使用可以自动学到特征之间的组合方式,双向长短记忆神经网络模型的利用引入了有用的附加信息特征,三者的结合有效提高了组块分析的准确度。 |
申请公布号 |
CN106021227A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610324281.5 |
申请日期 |
2016.05.16 |
申请人 |
南京大学 |
发明人 |
戴新宇;程川;陈家骏;黄书剑;张建兵 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
江苏圣典律师事务所 32237 |
代理人 |
胡建华 |
主权项 |
一种基于状态转移与神经网络的汉语组块分析方法,其特征在于,包括如下步骤:步骤1,计算机读取一个包含待分析句子的汉语文本文件,定义汉语组块的类型,对待分析句子进行分词并对每个词进行词性标注,进行词性标注时,根据当前句子状态确定所能选择的词性标注类型;步骤2,利用基于状态转移和神经网络的方法对待分析句子进行汉语组块分析。 |
地址 |
210023 江苏省南京市栖霞区仙林大道163号南京大学 |