发明名称 基于关系表的可配置信息抽取方法
摘要 一种基于关系表的可配置信息抽取方法,首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分:人工构建的抽取规则和通过机器学自动生成的规则;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,再使用训练好的模型对其进行分类。
申请公布号 CN104881488A 申请公布日期 2015.09.02
申请号 CN201510306130.2 申请日期 2015.06.05
申请人 焦点科技股份有限公司;东南大学 发明人 滕晓程;陈茂榕;邵明路;周晔;孟凡军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 陈建和
主权项 一种基于关系表的可配置信息抽取方法,其特征是步骤如下:首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体,即信息抽取表的主键的定义和对信息抽取表中各种属性的定义;主键和属性的定义的方式采用人工直接构建抽取规则,或者通过样例描述的方法自动学习生成抽取规则;所述的抽取方法中,用户使用类SQL语言创建信息抽取表,通过信息抽取表的形式定义所要抽取的信息,为信息抽取表定义主键和属性;信息抽取表的主键即所要抽取的信息的主体,是网页中的任何信息或网站本身;属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分:人工构建的抽取规则和通过机器学习自动生成的规则;人工构建的抽取规则直接通过正则表达式和CSS选择器编写,在信息抽取表创建时用户直接对于这类属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征,先从一部分网页中抽取其对应特征的一组特征值样本,然后对样本进行人工标注;再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律,即为对应信息的抽取规则;人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,根据不同属性抽取规则的不同,抽取过程可以分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值,再使用训练好的模型对其进行分类。抽取的结果以结构化的形式存储到数据库中,与用户定义的信息抽取表对应。
地址 210003 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F