一种面向中文专利的实体间非分类关系抽取方法,申请号CN201610001335.4-传众专利搜索

发明名称	一种面向中文专利的实体间非分类关系抽取方法
摘要	本发明涉及一种面向中文专利的实体间非分类关系抽取方法，包括以下步骤：步骤1)：初始化概念对所在的基本关系集合；步骤2)：使用基于领域关系强度的关系词标记算法自动标记候选关系词；步骤3)：进行特征选择，获得特征向量；步骤4)：采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取，提出句法分析特征和关系词词典特征并结合传统特征的方法，使用支持向量机进行关系抽取，从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题，该方法优于传统关系抽取方法，可以很好地满足实际应用的需要。
申请公布号	CN105678327A	申请公布日期	2016.06.15
申请号	CN201610001335.4	申请日期	2016.01.05
申请人	北京信息科技大学;北京城市系统工程研究中心	发明人	吕学强;徐丽萍;董志安
分类号	G06K9/62(2006.01)I;G06F17/27(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构		代理人
主权项	一种面向中文专利的实体间非分类关系抽取方法，包括训练过程和测试过程，其特征在于，所述训练过程和测试过程均包括以下步骤：步骤1)：初始化概念对所在的基本关系集合。步骤2)：使用基于领域关系强度的关系词标记算法自动标记候选关系词；其中，领域关系强度DRV(Domain Relation Value)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组R(C<sub>1</sub>，C<sub>2</sub>)，那么C<sub>1</sub>、C<sub>2</sub>和关系词R共现的概率较大。定义公式如下：<img file="FSA0000125449620000011.GIF" wi="1104" he="137" /><img file="FSA0000125449620000012.GIF" wi="1149" he="126" />其中，w<sub>i</sub>表示句子中的词汇，C＝{w<sub>i</sub>，w<sub>i+1</sub>，...，w<sub>k</sub>}，(i＜k)，集合C表示本体中的概念；f(C<sub>1</sub>，C<sub>2</sub>)表示概念对C<sub>1</sub>和C<sub>2</sub>出现的次数，α的作用是过滤C<sub>1</sub>和C<sub>2</sub>共现次数小于α的概念对，f(C<sub>1</sub>，R，C<sub>2</sub>)表示二元组关系R(C<sub>1</sub>，C<sub>2</sub>)；步骤3)：进行特征选择，获得特征向量。步骤4)：采用支持向量机SVM对步骤3)获得的特征数据进行分类。
地址	100192 北京市海淀区清河小营东路12号