发明名称 |
互联网交易信息的数据清洗算法 |
摘要 |
本发明提供了一种针对不同互联网交易平台来源的数据进行清洗的方法,首先将数据库中的元组进行分类,将其中确定正确的元组数据进行与专家知识库进行模式交互,以基于知识库检索内容的模糊匹配为工具,获得其相应的模式知识。然后利用找到的模式知识,对数据中存在质量问题且适用的数据进行清洗。同时,针对不同类型海量数据的质量错误也提出了适宜的高效检测方案。而采用BP神经网络方法实现自学的专家知识库为互联网交易信息数据清洗提供了更加高效、安全的清洗方式。 |
申请公布号 |
CN105045807A |
申请公布日期 |
2015.11.11 |
申请号 |
CN201510305440.2 |
申请日期 |
2015.06.04 |
申请人 |
浙江力石科技股份有限公司 |
发明人 |
陈海江;吕浩;邵奇可;颜世航 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海汉声知识产权代理有限公司 31236 |
代理人 |
胡晶 |
主权项 |
一种互联网交易信息的数据清洗算法,其特征在于,包括:将待清洗的互联网交易信息数据进行数据质量问题检测获得干净元组、正确元组和问题元组;对所述干净元组:直接送入干净数据库;对所述正确元组:生成需要向专家知识库检索关键语句,根据所述关键语句在所述专家知识库中进行查询获得专家知识库模式,所述专家知识库模式包括文本依赖关系语句,对所述专家知识库模式进行数据清洗后送入所述干净数据库;对所述问题元组:进行可行元组的判断获得适合基于专家知识库模式清洗的可行元组和不适合基于专家知识库模式清洗的不可行元组,对所述可行元组生成向所述专家知识库检索关键语句后从该专家知识库中查询获得专家知识库模式,再经过数据清洗后送入所述干净数据库,对所述不可行元组进行其他策略数据清洗后送入所述干净数据库。 |
地址 |
311121 浙江省杭州市余杭区文一西路998号海创园科研孵化区18号楼506、507室 |