发明名称 一种结合稀疏编码和结构感知机的文本事件抽取方法
摘要 本发明公开了一种结合稀疏编码和结构感知机的文本事件抽取方法。包括如下步骤:1)将文本数据依照ACE或RichERE规范标注构建为训练样本;2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;3)进一步抽取文本分布式词向量特征,学稀疏编码特征;4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;5)对于新的文本数据,经过步骤1后输入结构感知机分类器,抽取文本事件信息。本发明利用了基于神经网络的分布式词向量特征的稀疏编码表达,强化了文本特征,另一方面使用结构感知机模型同时来学事件触发词和事件参与者的识别,据此获得了更好的事件抽取效果。
申请公布号 CN106599032A 申请公布日期 2017.04.26
申请号 CN201610955220.9 申请日期 2016.10.27
申请人 浙江大学 发明人 汤斯亮;吴飞;杨启凡;邵健;郝雷光;庄越挺
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高;傅朝栋
主权项 一种结合稀疏编码和结构感知机的文本事件抽取方法,其特征在于包括如下步骤:1)将文本数据依照Automatic Content Extraction和/或Rich Entity Relation Event规范标注构建为训练样本;2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;3)进一步抽取文本分布式词向量特征,学习稀疏编码特征;4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;5)对于新的文本数据,经过步骤1)后输入结构感知机分类器,抽取文本事件信息。
地址 310058 浙江省杭州市西湖区余杭塘路866号