发明名称 通过在线和离线组件聚类进化数据流的方法和设备
摘要 本发明提供一种对数据流的数据进行聚类的技术。首先从数据流产生在线统计信息。当要求或希望离线处理时,执行在线统计信息的离线处理。通过来自数据流的数据点的接收,以及数据组的形成和更新,能够产生在线统计信息。通过围绕采样数据点,对多组数据点重新聚类,并报告新形成的群集,可实现离线处理。
申请公布号 CN100416560C 申请公布日期 2008.09.03
申请号 CN200410056326.2 申请日期 2004.08.06
申请人 国际商业机器公司 发明人 查汝·C·阿格瓦尔;俞士纶
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 中国国际贸易促进委员会专利商标事务所 代理人 吴丽丽
主权项 1. 一种对数据流的数据进行聚类的方法,包括下述步骤:从数据流接收至少一个数据点;将所述至少一个数据点分配给多个数据点组的一个组;更新并且存储所述多个数据点组的一个组的在线统计信息,其中在线统计信息包括低级群集;确定离线处理对于低级群集分析是否是要求的或希望的;当要求或希望离线处理时,通过所述多个数据点组的在至少一个采样伪数据点附近的至少一个重聚类来创建高级群集,从而执行在线统计信息的离线处理;将电子消费者的事务的高级群集汇报给用户以便分析;当不要求或不希望离线处理时,重复接收、分配、更新和确定步骤。
地址 美国纽约