发明名称 |
一种分布式数据流聚类方法及系统 |
摘要 |
本发明公开了一种分布式数据流聚类方法及系统,克服目前大多数的数据流聚类算法不能在分布式云环境下运行并不能轻易地进行扩展,运行时间效率较差的不足,该方法包括:对数据流进行概要处理,获得数据流的多个特征向量;利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选取至少一个聚类簇作为候选聚类簇;周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。本申请的实施例基于位置敏感哈希的聚类算法保证了比现有技术具有更好的实时性能。 |
申请公布号 |
CN102915347A |
申请公布日期 |
2013.02.06 |
申请号 |
CN201210365295.3 |
申请日期 |
2012.09.26 |
申请人 |
中国信息安全测评中心;北京启明星辰信息安全技术有限公司 |
发明人 |
吴世忠;曲武;李世贤;王君鹤;偰赓;陈巍 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京安信方达知识产权代理有限公司 11262 |
代理人 |
栗若木;曲鹏 |
主权项 |
一种分布式数据流聚类方法,包括:对数据流进行概要处理,获得数据流的多个特征向量;利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇,并从中选取至少一个聚类簇作为候选聚类簇;周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。 |
地址 |
100085 北京市海淀区上地西路8号院A座 |