主权项 |
事件本体学习方法,其特征在于,包括以下步骤:1)事件类识别:(1)对分档进行分词处理,将词性标记为“/v”的动词和词性标记为“/vn”的动名词提取出来作为初步触发词集合E<sub>1</sub>;(2)依据停用动词表将集合E<sub>1</sub>中的第一类停用动词直接剔除,从而得到事件触发词集合E<sub>2</sub>;(3)遍历集合E<sub>2</sub>,依次与第二类停用动词集合中动词比对,若匹配,将该词记为v<sub>1</sub>,在原文档中该词所属子句内向后k距离内查找名词,其中子句指由标点符号隔开的句子,词间距离指距某词的字数长度,若查找到名词n<sub>1</sub>,则将n<sub>1</sub>加入集合E<sub>2</sub>中,并删除v<sub>1</sub>,查找结束;若向后未查找到名词,则向前k距离内查找,处理方法不变;若仍未找到名词,则直接删除动词v<sub>1</sub>;经过处理,得到候选触发词集合E<sub>3</sub>;向后查找距离k取值为3,向前查找距离k取值为2;2)事件重要度计算<img file="dest_path_FDA0000870127680000011.GIF" wi="941" he="135" />上式为计算事件类u的重要度,In(u)为对事件类u的相关性因子大于0的事件类集合,Out(u)为事件类u对其他事件类相关性因子大于0的事件类集合,w<sub>ju</sub>和w<sub>ug</sub>分别为对应的事件类相关性因子,α和β分别是调节入度和出度权重的系数,均取值0.5,q为调节系数,取值为0.85,n为事件类个数;其中,事件类相关性因子计算方法如下:分析相关语料文本集中单一文档d,<img file="dest_path_FDA0000870127680000012.GIF" wi="83" he="68" />和<img file="dest_path_FDA0000870127680000013.GIF" wi="110" he="71" />分别代表事件类EC<sub>i</sub>和EC<sub>j</sub>的动作触发词在文档d中出现频次;在单篇文档中统计计算事件类EC<sub>i</sub>对EC<sub>j</sub>的相关性因子公式定义如下所示:<img file="dest_path_FDA0000870127680000014.GIF" wi="678" he="279" />由于事件相关性因子定义为数学中的概率值,如果<img file="dest_path_FDA0000870127680000015.GIF" wi="189" he="86" />则对计算结果归一化,即令<img file="dest_path_FDA0000870127680000016.GIF" wi="254" he="87" />由于单篇文档有可能会存在偶然性,因此需要对整个文档集合进行统计计算取平均值,最终事件类EC<sub>i</sub>对EC<sub>j</sub>的相关性因子的计算公式如下所示:<img file="dest_path_FDA0000870127680000021.GIF" wi="256" he="175" />其中N表示整个文档集集合,|N|表示整个文档集个数。 |