发明名称 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台
摘要 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:(1)基础准备工作:建立分词库与片段库;建立匹配凭据库;同时建立高效索引引擎;(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作;(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理;(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;(5)终校入库:将完成的作业按照内容不同分别进行入库处理。该专利具有自动化程度高,操作简单易学等优点。
申请公布号 CN103744854A 申请公布日期 2014.04.23
申请号 CN201310567022.1 申请日期 2013.11.15
申请人 北京正图数创信息技术有限公司 发明人 张鹏;曾汀;朱军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,其特征在于:包括如下步骤:(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;(2)作业准备:自动完成待匹配门址的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作;(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置信息的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核;(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,另一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
地址 100083 北京市海淀区中关村东路18号1号楼C-305