发明名称 一种面向中文专利的实体间非分类关系抽取方法
摘要 本发明涉及一种面向中文专利的实体间非分类关系抽取方法,包括以下步骤:步骤1):初始化概念对所在的基本关系集合;步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;步骤3):进行特征选择,获得特征向量;步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取,提出句法分析特征和关系词词典特征并结合传统特征的方法,使用支持向量机进行关系抽取,从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,该方法优于传统关系抽取方法,可以很好地满足实际应用的需要。
申请公布号 CN105678327A 申请公布日期 2016.06.15
申请号 CN201610001335.4 申请日期 2016.01.05
申请人 北京信息科技大学;北京城市系统工程研究中心 发明人 吕学强;徐丽萍;董志安
分类号 G06K9/62(2006.01)I;G06F17/27(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 代理人
主权项 一种面向中文专利的实体间非分类关系抽取方法,包括训练过程和测试过程,其特征在于,所述训练过程和测试过程均包括以下步骤:步骤1):初始化概念对所在的基本关系集合。步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;其中,领域关系强度DRV(Domain Relation Value)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组R(C<sub>1</sub>,C<sub>2</sub>),那么C<sub>1</sub>、C<sub>2</sub>和关系词R共现的概率较大。定义公式如下:<img file="FSA0000125449620000011.GIF" wi="1104" he="137" /><img file="FSA0000125449620000012.GIF" wi="1149" he="126" />其中,w<sub>i</sub>表示句子中的词汇,C={w<sub>i</sub>,w<sub>i+1</sub>,...,w<sub>k</sub>},(i<k),集合C表示本体中的概念;f(C<sub>1</sub>,C<sub>2</sub>)表示概念对C<sub>1</sub>和C<sub>2</sub>出现的次数,α的作用是过滤C<sub>1</sub>和C<sub>2</sub>共现次数小于α的概念对,f(C<sub>1</sub>,R,C<sub>2</sub>)表示二元组关系R(C<sub>1</sub>,C<sub>2</sub>);步骤3):进行特征选择,获得特征向量。步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。
地址 100192 北京市海淀区清河小营东路12号