发明名称 |
基于模型库的智能数据提取方法 |
摘要 |
本发明公开了一种基于模型库的智能数据提取方法,包括如下步骤:a)预先定义多个数据模型,并为每个模型的每个字段设置特征,形成模型库的字段特征;b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据;c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配,选取特征匹配度最高的模型作为该数据源的特征模型;d)根据选定的数据模型对数据源进行格式化提取。本发明提供的基于模型库的智能数据提取方法,通过特征抽取和特征匹配评分完成数据提取,提高识别格式化的效率,无需对数据进行建模,并可以根据分析需求方便地进行模型更新。 |
申请公布号 |
CN106547915A |
申请公布日期 |
2017.03.29 |
申请号 |
CN201611069274.1 |
申请日期 |
2016.11.29 |
申请人 |
上海轻维软件有限公司 |
发明人 |
程永新;谢涛;吴泽锋 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海科律专利代理事务所(特殊普通合伙) 31290 |
代理人 |
袁亚军;金碎平 |
主权项 |
一种基于模型库的智能数据提取方法,其特征在于,包括如下步骤:a)预先定义多个数据模型,并为每个模型的每个字段设置特征,形成模型库的字段特征;b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据;c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配,选取特征匹配度最高的模型作为该数据源的特征模型;d)根据选定的数据模型对数据源进行格式化提取。 |
地址 |
200331 上海市普陀区祁连山南路2891弄105号2811室 |