发明名称 基于关系表的可配置信息抽取方法
摘要 一种基于关系表的可配置信息抽取方法,首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分:人工构建的抽取规则和通过机器学自动生成的规则;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,再使用训练好的模型对其进行分类。
申请公布号 CN104881488B 申请公布日期 2017.04.05
申请号 CN201510306130.2 申请日期 2015.06.05
申请人 焦点科技股份有限公司;东南大学 发明人 滕晓程;陈茂榕;邵明路;周晔;孟凡军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 陈建和
主权项 一种基于关系表的可配置信息抽取方法,其特征是步骤如下:首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体,即信息抽取表的主键的定义和对信息抽取表中各种属性的定义;主键和属性的定义的方式采用人工直接构建抽取规则;所述的抽取方法中,用户使用类SQL语言创建信息抽取表,通过信息抽取表的形式定义所要抽取的信息,为信息抽取表定义主键和属性;信息抽取表的主键即所要抽取的信息的主体,是网页中的任何信息或网站本身;属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词;2)信息抽取规则集生成,所需信息的抽取规则集合为人工构建的抽取规则;人工构建的抽取规则直接通过正则表达式和CSS选择器编写,在信息抽取表创建时用户直接对于所述属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征,先从一部分网页中抽取其对应特征的一组特征值样本,然后对样本进行人工标注;再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律,即为对应信息的抽取规则;人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,根据不同属性抽取规则的不同,抽取过程能够分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值,再使用训练好的模型对其进行分类;抽取的结果以结构化的形式存储到数据库中,与用户定义的信息抽取表对应;对于需要通过特征来定义的属性而言,不同特征值的组合蕴含了不同的属性值,而不同特征值的组合到属性值之间的映射规则即为该属性对应的抽取规则;而对于部分属性的抽取,使用机器学习的方法自动生成抽取规则,则通过关键词特征来定义:通过网页上的一些关键词特征来综合判别网站是否为某类网站,这些关键词特征定义了属性的内涵;通过对抽取的特征样本进行人工标注,使用机器学习的方法自动生成对应的抽取规则;信息抽取用户接口中预定义一些常用的抽取函数,包括直接抽取规则的函数和抽取特征的函数,用户或根据特定需求自定义规则进行抽取;在对于提供旅游销售的网站,从描述旅游线路的网页上抽取旅游线路信息时,线路作为表的主体,在同一网站或类似网站中,线路价格,描述属性的位置、格式是固定的,所以能够从网页中直接获取;通过正则表达式和CSS选择器进行人工构建抽取规则的方法,CSS选择器是对HTML页面中的元素实现一对一,一对多或者多对一的控制。
地址 210003 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F
您可能感兴趣的专利