发明名称 一种中文同指事件识别方法及系统
摘要 一种中文同指事件识别方法及系统,所述方法包括:对同指标注文本和测试文本中每个包含事件的句子进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。
申请公布号 CN105302794A 申请公布日期 2016.02.03
申请号 CN201510726584.5 申请日期 2015.10.30
申请人 苏州大学 发明人 李培峰;朱巧明;周国栋;朱晓旭
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种中文同指事件识别方法,其特征在于,包括以下步骤:S1、对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合;S2、分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合;S3、根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合;S4、对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
地址 215123 江苏省苏州市工业园区仁爱路199号