发明名称 一种基于自动机的实体关系快速抽取方法
摘要 本发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。
申请公布号 CN105824801A 申请公布日期 2016.08.03
申请号 CN201610150794.9 申请日期 2016.03.16
申请人 国家计算机网络与信息安全管理中心 发明人 程工;刘春阳;庞琳;王卿;李雄;张旭;马宏远;石瑾;毕涛;刘玮;贺敏;陈磊
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京市盛峰律师事务所 11337 代理人 席小东
主权项 一种基于自动机的实体关系快速抽取方法,其特征在于,包括以下步骤:步骤1,定制规则文件;其中,所述规则文件由多条规则组成;所述规则包括以下元素:实体特征规则关键字、低级约束关键字、高级约束关键字和高级规则关键字;其中,实体特征规则关键字包括CONCEPT、REGEX和MCONCEPT,CONCEPT的特征语义为文本元素表示的元实体特征;REGEX的特征语义为正则表达式表示的元实体特征;MCONCEPT的特征语义为元实体特征组合表达的复杂实体特征;低级约束关键字包括AND、OR和NOT;AND代表的约束语义为:两个或多个实体特征必须同时出现在上下文环境;OR代表的约束语义为:两个或多个实体特征中至少有一个出现在上下文环境;NOT代表的约束语义为:某个或者多个实体特征不能出现在上下文环境;高级约束关键字包括SENT、ORD和DIST_K;SENT代表的约束语义为:两个或多个实体特征必须同时出现在同一句话的上下文环境;ORD代表的约束语义为:两个或多个实体特征必须按照一定顺序关系同时出现在上下文环境;DIST_K代表的约束语义为:两个或多个实体特征必须按照一定距离限制同时出现在上下文环境;高级规则关键字包括MCONCEPT_RULE,其规则语义为:代表两个或多个实体特征在满足由低层约束关键字和高层约束关键字约束基础上构成的关系;步骤2,对步骤1定制的所述规则文件中的各个规则进行文法检查,检测所述规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。
地址 100029 北京市朝阳区裕民路甲3号