发明名称 |
一种面向中文专利的实体间非分类关系抽取方法 |
摘要 |
本发明涉及一种面向中文专利的实体间非分类关系抽取方法,包括以下步骤:步骤1):初始化概念对所在的基本关系集合;步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;步骤3):进行特征选择,获得特征向量;步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取,提出句法分析特征和关系词词典特征并结合传统特征的方法,使用支持向量机进行关系抽取,从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,该方法优于传统关系抽取方法,可以很好地满足实际应用的需要。 |
申请公布号 |
CN105678327A |
申请公布日期 |
2016.06.15 |
申请号 |
CN201610001335.4 |
申请日期 |
2016.01.05 |
申请人 |
北京信息科技大学;北京城市系统工程研究中心 |
发明人 |
吕学强;徐丽萍;董志安 |
分类号 |
G06K9/62(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06K9/62(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种面向中文专利的实体间非分类关系抽取方法,包括训练过程和测试过程,其特征在于,所述训练过程和测试过程均包括以下步骤:步骤1):初始化概念对所在的基本关系集合。步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;其中,领域关系强度DRV(Domain Relation Value)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组R(C<sub>1</sub>,C<sub>2</sub>),那么C<sub>1</sub>、C<sub>2</sub>和关系词R共现的概率较大。定义公式如下:<img file="FSA0000125449620000011.GIF" wi="1104" he="137" /><img file="FSA0000125449620000012.GIF" wi="1149" he="126" />其中,w<sub>i</sub>表示句子中的词汇,C={w<sub>i</sub>,w<sub>i+1</sub>,...,w<sub>k</sub>},(i<k),集合C表示本体中的概念;f(C<sub>1</sub>,C<sub>2</sub>)表示概念对C<sub>1</sub>和C<sub>2</sub>出现的次数,α的作用是过滤C<sub>1</sub>和C<sub>2</sub>共现次数小于α的概念对,f(C<sub>1</sub>,R,C<sub>2</sub>)表示二元组关系R(C<sub>1</sub>,C<sub>2</sub>);步骤3):进行特征选择,获得特征向量。步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。 |
地址 |
100192 北京市海淀区清河小营东路12号 |