发明名称 事件本体学方法
摘要 事件本体学方法,并应用于煤矿安全领域。目前事件本体的构建主要以人工为主。该领域事件本体的构建,采取的本体学的数据源主要是网络中存在的大量煤矿安全领域的网页资源,人工进行筛选后作为文本文档,进行本体学时,首先需要运用自然语言识别的一些技术对文本文档进行预处理,之后通过算法集和统计学方法对预处理结果进行深层次处理,将结果呈现给用户,作为初步的领域事件本体结果,在全程的处理过程中都需要领域专家和开发人员参与并不断修改、纠正,最终形成完善的煤矿安全领域事件本体。
申请公布号 CN105260375A 申请公布日期 2016.01.20
申请号 CN201510473700.7 申请日期 2015.08.05
申请人 北京工业大学 发明人 沈琦;王宇;陈博;李婧;刘泽伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 刘萍
主权项 事件本体学习方法,其特征在于,包括以下步骤:1)事件类识别:(1)对分档进行分词处理,将词性标记为“/v”的动词和词性标记为“/vn”的动名词提取出来作为初步触发词集合E<sub>1</sub>;(2)依据停用动词表将集合E<sub>1</sub>中的第一类停用动词直接剔除,从而得到事件触发词集合E<sub>2</sub>;(3)遍历集合E<sub>2</sub>,依次与第二类停用动词集合中动词比对,若匹配,将该词记为v<sub>1</sub>,在原文档中该词所属子句内向后k距离内查找名词,其中子句指由标点符号隔开的句子,词间距离指距某词的字数长度,若查找到名词n<sub>1</sub>,则将n<sub>1</sub>加入集合E<sub>2</sub>中,并删除v<sub>1</sub>,查找结束;若向后未查找到名词,则向前k距离内查找,处理方法不变;若仍未找到名词,则直接删除动词v<sub>1</sub>;经过处理,得到候选触发词集合E<sub>3</sub>;向后查找距离k取值为3,向前查找距离k取值为2;2)事件重要度计算<img file="dest_path_FDA0000870127680000011.GIF" wi="941" he="135" />上式为计算事件类u的重要度,In(u)为对事件类u的相关性因子大于0的事件类集合,Out(u)为事件类u对其他事件类相关性因子大于0的事件类集合,w<sub>ju</sub>和w<sub>ug</sub>分别为对应的事件类相关性因子,α和β分别是调节入度和出度权重的系数,均取值0.5,q为调节系数,取值为0.85,n为事件类个数;其中,事件类相关性因子计算方法如下:分析相关语料文本集中单一文档d,<img file="dest_path_FDA0000870127680000012.GIF" wi="83" he="68" />和<img file="dest_path_FDA0000870127680000013.GIF" wi="110" he="71" />分别代表事件类EC<sub>i</sub>和EC<sub>j</sub>的动作触发词在文档d中出现频次;在单篇文档中统计计算事件类EC<sub>i</sub>对EC<sub>j</sub>的相关性因子公式定义如下所示:<img file="dest_path_FDA0000870127680000014.GIF" wi="678" he="279" />由于事件相关性因子定义为数学中的概率值,如果<img file="dest_path_FDA0000870127680000015.GIF" wi="189" he="86" />则对计算结果归一化,即令<img file="dest_path_FDA0000870127680000016.GIF" wi="254" he="87" />由于单篇文档有可能会存在偶然性,因此需要对整个文档集合进行统计计算取平均值,最终事件类EC<sub>i</sub>对EC<sub>j</sub>的相关性因子的计算公式如下所示:<img file="dest_path_FDA0000870127680000021.GIF" wi="256" he="175" />其中N表示整个文档集集合,|N|表示整个文档集个数。
地址 100124 北京市朝阳区平乐园100号