发明名称 基于用户偏好的数据清洗方法
摘要 基于用户偏好的数据清洗方法,以用户偏好的为基础,采用半监督学算法,使用K-means模糊聚类分析方法对用户偏好的信息进行语义内容标记,从而在数据存储区中形成相应的用户偏好数据区。同时用户偏好数据区监控服务对用户偏好数据区进行实时监控,对数据区中数据的变化进行分析,并预测可能的带来的结果,从而决定下一步的操作。在数据清洗模块中,“脏数据”识别服务是数据清洗的重要组成部分,采用最优数据定位预测的数据分析方法,高效、准确地识别“脏数据”并进行标记。数据清洗服务剔除系统“脏数据”和错误数据,并通过底层硬件接口对外接口输入干净的数据。
申请公布号 CN101706791A 申请公布日期 2010.05.12
申请号 CN200910167659.5 申请日期 2009.09.17
申请人 成都康赛电子科大信息技术有限责任公司 发明人 唐雪飞;佘堃;陈科;汪海良
分类号 G06F17/30(2006.01)I;G06N3/02(2006.01)I;G06N3/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 基于用户偏好的数据清洗方法,通过半监督学习识别用户数据区,并完成数据清洗过程,其特征是:基于用户偏好的数据清洗方法采用了半监督学习算法,使用K-means模糊聚类分析方法对用户偏好的信息进行语义内容标记,从而在数据存储区中形成相应的用户偏好数据区,并通过数据清洗服务剔除系统“脏数据”和错误数据。
地址 610054 四川省成都市一环路东一段159号