发明名称 |
基于用户偏好的数据清洗方法 |
摘要 |
基于用户偏好的数据清洗方法,以用户偏好的为基础,采用半监督学算法,使用K-means模糊聚类分析方法对用户偏好的信息进行语义内容标记,从而在数据存储区中形成相应的用户偏好数据区。同时用户偏好数据区监控服务对用户偏好数据区进行实时监控,对数据区中数据的变化进行分析,并预测可能的带来的结果,从而决定下一步的操作。在数据清洗模块中,“脏数据”识别服务是数据清洗的重要组成部分,采用最优数据定位预测的数据分析方法,高效、准确地识别“脏数据”并进行标记。数据清洗服务剔除系统“脏数据”和错误数据,并通过底层硬件接口对外接口输入干净的数据。 |
申请公布号 |
CN101706791A |
申请公布日期 |
2010.05.12 |
申请号 |
CN200910167659.5 |
申请日期 |
2009.09.17 |
申请人 |
成都康赛电子科大信息技术有限责任公司 |
发明人 |
唐雪飞;佘堃;陈科;汪海良 |
分类号 |
G06F17/30(2006.01)I;G06N3/02(2006.01)I;G06N3/08(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
基于用户偏好的数据清洗方法,通过半监督学习识别用户数据区,并完成数据清洗过程,其特征是:基于用户偏好的数据清洗方法采用了半监督学习算法,使用K-means模糊聚类分析方法对用户偏好的信息进行语义内容标记,从而在数据存储区中形成相应的用户偏好数据区,并通过数据清洗服务剔除系统“脏数据”和错误数据。 |
地址 |
610054 四川省成都市一环路东一段159号 |