主权项 |
一种基于云计算的聚类特征等值直方图的维护方法, 其特征在于对滑动窗口进行聚类,采用反应数据结构的聚类特征等值直方图来表示,聚类特征等值直方图根据元组的到达时标将元组划分为若干个桶,每一个桶存储该组元组的聚类特征,称为时间聚类特征,时间聚类特征除了包含聚类特征外,还含有时标信息,当聚类特征等值直方图中的第一个桶的时标不再属于当前最近的N个时标内时,则删除该桶;等值直方图的维护是基于滑动窗口的,若滑动窗口未满的时候直接进行聚类操作,先进行等值直方图的删除,然后在聚类,假设新进入的XML文档概化结构x,窗口大小N,相似度阙值LevelSim,以聚类的簇为EHCF,维护步骤如下:1:判断滑动窗口大小是否等于N;2:若不等于{3:循环遍历所有EHCF与x的相似度大小;4:若大于阙值把x加入到该EHCF;5:否则继续遍历6:}若等于窗口大小N{7:找到最早进入窗口的XML文档所在的簇;8:删除该簇中最早到达的TCF;9:重复操作步骤3到5;10:}11:当3步骤找到相似度大于阙值的簇EHCF的时候,就要进行EHCF的添加工作,首先判断EHCF中最后添加的桶TCF内保存的XML文档个数是否已经达到桶的最大值,若未达到直接把x添加到该TCF中,否则在EHCF重新创建一个TCF把x加入其中;12:如果进入x的时候窗口已满,则要进行删除工作,首先根据EHCF中保存的时间戳TimeStep找到窗口内最早进入的EHCF,然后找到该EHCF中最早进入的TCF,删除这个TCF,这样窗口内就减少了n个XML文档,这样就能继续添加最近的XML文档了。 |