一种基于特征点符号聚集近似的时间序列异常挖掘方法,申请号CN201210337740.5-传众专利搜索

发明名称	一种基于特征点符号聚集近似的时间序列异常挖掘方法
摘要	本发明公开一种基于特征点符号聚集近似的时间序列异常挖掘方法，用特征点符号聚集近似方法表征时间序列，并在此基础上对符号串进行距离度量，得出异常数据。该方法包括时间序列降维技术，选取符合条件的极值点和分段平均值作为特征点表征序列；符号化方法，利用符号化聚集近似的思想，将特征点序列转化为符号串；符号串间距离度量方法，定义了一个基于符号距离的动态时间弯曲距离用于度量两个符号串之间的距离，挖掘出异常数据。本发明突出了符号化方法简便快速、高度概括的特点，为后续的进一步挖掘节省了大量计算时间，提高了效率。
申请公布号	CN102867052B	申请公布日期	2015.07.29
申请号	CN201210337740.5	申请日期	2012.09.13
申请人	河海大学	发明人	朱跃龙;刘千;张鹏程
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京苏高专利商标事务所(普通合伙) 32204	代理人	柏尚春
主权项	一种基于特征点符号聚集近似的时间序列异常挖掘方法，其特征在于：包括特征点符号聚集近似方法和符号串间距离的度量方法；所述特征点符号聚集近似方法为：通过提取时间序列的特征点来表征所述时间序列，依据符号聚集近似方法，将时间序列划分到若干个等概率空间，得到一个可以表示时间序列的符号串；所述符号串间距离的度量方法为：根据动态时间弯曲方法，定义两个符号串之间的动态弯曲距离，从而得到符号串之间的距离；特征点符号聚集近似方法包括降维和符号化；所述降维为：通过提取时间序列的特征点来表征该序列，所述特征点由三部分构成，即序列的起点和终点、极值特征点以及均值特征点；所述极值特征点为：选取保持时间段与时间序列长度之比大于等于阈值L的极值点；所述均值特征点：包含N个极值点的分段子序列平均值作为该序列的特征点，达到降维的目的；其中，L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定，一般情况下为0.01～0.1；N的取值最小为1，最大为该序列的所有极值特征点个数；降维方法步骤如下：步骤101，输入待挖掘的原始时间序列；步骤102，将原始序列的起点保存为特征点，并设置一个指向第二个点的游标；步骤103，循环开始，判断游标指向的点是否为该时间序列的极值点；步骤104，若不是极值点，则游标指向下一个点；步骤105，若是极值点，则保存，游标指向下一个点；步骤106，如此循环，直至游标指向序列终点；步骤107，保存该序列终点为特征点；步骤108，开始剩余寻找特征点，将游标置于极值点数组的第二个点；步骤109，开始循环，判断游标指向的点前后两个极值点之差与序列长度之比是否大于等于L；步骤110，若不满足，游标指向下一个点；步骤111，若满足，则保存为特征点，游标指向下一个点；步骤112，如此循环，直至游标指向数组最后一个点；步骤113，根据N的大小，划分原始序列，算出分段平均值及其坐标；步骤114，按照坐标大小将所有特征点非递减排序；所述符号化：采用符号化聚集近似方法划分若干个等概率空间，根据特征点的大小映射到不同的概率区间，处于同一概率区间的序列值用相同的符号表示，最后得到一个长度与特征点个数相同的符号串；符号化方法的步骤如下：步骤201，输入待挖掘的原始时间序列；步骤202，由于符号化方法基于符号化聚集近似方法，因此在进行符号化之前，需要对原始时间序列进行标准化，使其满足标准正态分布；采用零‑均值方法，对于原始序列C，将其标准化为序列<img file="FDA0000718879210000022.GIF" wi="45" he="62" />，其中u和v分别为该序列的平均值和标准差：<img file="FDA0000718879210000021.GIF" wi="1011" he="120" />步骤203，按照步骤101‑114的流程对序列进行降维；步骤204，确定选取的符号总数a；步骤205，将已提取特征值的特征点序列划分到a个等概率空间，根据特征点序列的值，把处于同一概率区间的值用同一个符号表示；符号串间距离的度量方法包括，定义符号之间的距离代替动态时间弯曲中的欧氏距离，以符号间的距离为基础得到两个符号串之间的距离，进而得到任意一个符号串与其余符号串之间的距离之和，称其为累积距离。
地址	210098 江苏省南京市鼓楼区西康路1号