发明名称 基于K线图表示的金融时间序列相似性查询方法
摘要 本发明公开了一种基于K线图表示的金融时间序列相似性查询方法,包括特征提取、索引构建和查询处理步骤。首先,基于K线表示对金融时间序列提取基本模式与典型模式特征,将其分别转化为基本字符串与典型字符串;然后,分别对两者构建倒排索引。对于每条查询序列,经相同方式提取基本模式与典型模式特征后,分别查询所构建的两个倒排索引,获取两个候选集,然后求交集运算得到最终候选集;再经后续处理得到最终查询结果。本发明可有效实现<i>k</i>最近邻查询,具有较高的度量精度及查询效率,并对时间序列长度、<i>k</i>最近邻查询规模及数据集规模具有良好的扩展性。在规模日益扩大的电子化金融交易市场中可发挥重要作用。
申请公布号 CN104572886A 申请公布日期 2015.04.29
申请号 CN201410812464.2 申请日期 2014.12.23
申请人 浙江大学 发明人 蔡青林;陈岭;孙建伶;陈蕾英
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 邱启旺
主权项 一种基于K线图表示的金融时间序列相似性查询方法,其特征在于,包括以下步骤:(1)特征提取,具体包括以下子步骤:(1.1)依次读取金融时间序列数据库中的每条时间序列;(1.2)对时间序列做z‑规范化处理;(1.3)设定K线表示粒度l,采用该粒度的窗口对步骤1.2处理得到的时间序列平均切分为w条子序列;依次提取每条子序列的初始值v<sub>first</sub>,最大值v<sub>max</sub>,最小值v<sub>min</sub>,最终值v<sub>last</sub>,构造K线图,并表示为特征向量K=[v<sub>first</sub>,v<sub>max</sub>,v<sub>min</sub>,v<sub>last</sub>],将金融时间序列转化为K线序列К={K<sub>1</sub>,K<sub>2</sub>,...,K<sub>i</sub>,…,K<sub>w</sub>};(1.4)分别提取K线序列的基本模式P<sub>basic</sub>与典型模式P<sub>typical</sub>,将其转化为基本字符串Str<sub>basic</sub>与典型字符串Str<sub>typical</sub>,具体为:(1.4.1)将金融时间序列在金融交易市场中单位时间段的最大升降幅度范围平均划分为n个区间,并从0开始依次递增编号;(1.4.2)依次扫描每对相邻的K线组合&lt;K<sub>i</sub>,K<sub>i+1</sub>&gt;,计算K<sub>i+1</sub>的四个特征相对于K<sub>i</sub>的最终值K<sub>i</sub>(v<sub>last</sub>)的升降幅度,并分别映射到步骤1.4.1划分的相应区间,以区间编号表示各特征,得到离散化特征向量D<sub>i+1</sub>;将&lt;D<sub>i</sub>,D<sub>i+1</sub>&gt;的各元素依次分配到连续存储单元,组合为基本模式P<sub>basic</sub>,由此将K线序列转化为基本字符串Str<sub>basic</sub>;(1.4.3)采用金融技术分析领域的Ω种多K线组合模式作为典型模式库P<sub>typical</sub>_base,并将每个典型模式P<sub>typical</sub>以离散化特征向量的形式存储;依次扫描K线序列,若以K<sub>i</sub>起始的多K线组合&lt;K<sub>i</sub>,K<sub>i+1</sub>,...,K<sub>i+η</sub>&gt;与P<sub>typical</sub>_base中的典型模式相匹配,则进行提取并根据1.4.2的方式编码存储,由此将K线序列转化为典型字符串Str<sub>typical</sub>;(2)索引构建,具体包括以下子步骤:(2.1)基于Lucene全文检索开源框架,以P<sub>basic</sub>作为索引项,对所有基本字符串Str<sub>basic</sub>构建基本模式倒排索引P<sub>basic</sub>_index;(2.2)基于Lucene全文检索开源框架,以P<sub>typical</sub>作为索引项,对所有典型字符串Str<sub>typical</sub>构建典型模式倒排索引P<sub>typical</sub>_index;(3)查询处理,具体包括以下子步骤:(3.1)将查询时间序列Q进行与步骤1相同的特征提取,得到基本字符串Str<sub>basic</sub>(Q)与典型字符串Str<sub>typical</sub>(Q);(3.2)对Str<sub>basic</sub>(Q)查询步骤2.1得到的基本模式倒排索引P<sub>basic</sub>_index,获取包含M个候选对象的候选集C<sub>1</sub>;(3.3)对Str<sub>typical</sub>(Q)查询步骤2.2得到的典型模式倒排索引P<sub>typical</sub>_index,获取包含N个候选对象的候选集C<sub>2</sub>;(3.4)对C<sub>1</sub>与C<sub>2</sub>求交集,得到包含Γ个候选对象的最终候选集C<sub>3</sub>;(3.5)对C<sub>3</sub>中的每个候选对象,通过磁盘I/O读取原始序列,并与查询时间序列Q的原始值进行相似性度量,根据相似性度量值,对C<sub>3</sub>的所有候选对象进行排序,保留k个最相似的候选序列作为最终的查询结果并返回。
地址 310058 浙江省杭州市西湖区余杭塘路866号