发明名称 一种基于云计算的聚类特征等值直方图的维护方法
摘要 本发明提供一种基于云计算的聚类特征等值直方图的维护方法,从聚类方法中采用不同的策略,该方法在簇的层次上优化聚类参数来定义聚类标准函数(或全局相似测量)。每个新的数据和现有簇进行比较,而不是每个数据。全局度量计算速度远远超过成对相似性度量。利用全局相似性度量的概念,对异构XML文档进行有效分组的具有层级相似的XML文档聚类(XCLS)方法。另一个XCLS的优点是它的层级结构格式,该格式是为在聚类处理中有效表述文件而开发的。为提高聚类过程速度,在层级结构式包含在标记名称中的语义将被忽略,将用编号代替。事实上,聚类过程也不包括标签的内容。新的全局标准函数,叫做LevelSim,是在聚类级别利用层级关系测量文件属性之间的相似性。实验结果表明,XCLS是一种准确,快速和可扩展的XML文档分组方法。
申请公布号 CN103488757A 申请公布日期 2014.01.01
申请号 CN201310440281.8 申请日期 2013.09.25
申请人 浪潮电子信息产业股份有限公司 发明人 侯德龙;马旭军;曹玲玲;方雪静
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于云计算的聚类特征等值直方图的维护方法, 其特征在于对滑动窗口进行聚类,采用反应数据结构的聚类特征等值直方图来表示,聚类特征等值直方图根据元组的到达时标将元组划分为若干个桶,每一个桶存储该组元组的聚类特征,称为时间聚类特征,时间聚类特征除了包含聚类特征外,还含有时标信息,当聚类特征等值直方图中的第一个桶的时标不再属于当前最近的N个时标内时,则删除该桶;等值直方图的维护是基于滑动窗口的,若滑动窗口未满的时候直接进行聚类操作,先进行等值直方图的删除,然后在聚类,假设新进入的XML文档概化结构x,窗口大小N,相似度阙值LevelSim,以聚类的簇为EHCF,维护步骤如下:1:判断滑动窗口大小是否等于N;2:若不等于{3:循环遍历所有EHCF与x的相似度大小;4:若大于阙值把x加入到该EHCF;5:否则继续遍历6:}若等于窗口大小N{7:找到最早进入窗口的XML文档所在的簇;8:删除该簇中最早到达的TCF;9:重复操作步骤3到5;10:}11:当3步骤找到相似度大于阙值的簇EHCF的时候,就要进行EHCF的添加工作,首先判断EHCF中最后添加的桶TCF内保存的XML文档个数是否已经达到桶的最大值,若未达到直接把x添加到该TCF中,否则在EHCF重新创建一个TCF把x加入其中;12:如果进入x的时候窗口已满,则要进行删除工作,首先根据EHCF中保存的时间戳TimeStep找到窗口内最早进入的EHCF,然后找到该EHCF中最早进入的TCF,删除这个TCF,这样窗口内就减少了n个XML文档,这样就能继续添加最近的XML文档了。
地址 250014 山东省济南市高新区舜雅路1036号