发明名称 基于新闻主题信息检索的金融时间序列预测方法
摘要 本发明公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征,并以新闻数据对金融时间序列的实时影响作为标记,训练支持向量机分类器作为预测模型;通过构建词频时间序列,有效度量词汇特征与时间序列的相关度,继而实现新闻主题与时间序列的相关度计算,由此查询与金融时间序列相关的新闻主题;通过对查询出的新闻数据提取词汇组合特征并输入预测模型,得到最终预测结果。本发明可有效预测新闻数据对金融时间序列的影响,帮助人们理解和把握两类数据之间的信息传递;在金融交易市场中,为投资者做舆情分析和投资决策提供了准确的指导。
申请公布号 CN104573003A 申请公布日期 2015.04.29
申请号 CN201510008836.0 申请日期 2015.01.08
申请人 浙江大学 发明人 蔡青林;陈岭;孙建伶;陈蕾英
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 邱启旺
主权项 一种基于新闻主题信息检索的金融时间序列预测方法,其特征在于,包括以下步骤:(1)数据预处理,具体包括以下子步骤:(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set;(1.2)依次读取新闻数据库News_base的每个新闻文本D<sub>i</sub>;(1.3)对D<sub>i</sub>解析并分词;(1.4)除去D<sub>i</sub>中所有停用词,并以D<sub>i</sub>的发布时间作为时间戳t对其标记;(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T={(x<sub>1</sub>,t<sub>1</sub>),(x<sub>2</sub>,t<sub>2</sub>),...,(x<sub>i</sub>,t<sub>i</sub>),...,(x<sub>n</sub>,t<sub>n</sub>)};(1.6)比较x<sub>1</sub>与x<sub>n</sub>的大小,标记D<sub>i</sub>对T的作用类型effect,并根据effect选择将D<sub>i</sub>加入Rise_set或Drop_set;(1.7)以时间戳t作为索引项,对文本数据库构建B<sup>+</sup>‑树索引I;(2)预测模型构建,具体包括以下子步骤:(2.1)从新闻数据库News_base中提取2‑词汇组合特征F,构建特征集合FS={F<sub>1</sub>,F<sub>2</sub>,...,F<sub>i</sub>,...,F<sub>N</sub>},并构建特征矩阵RFM与DFM,分别存储特征F<sub>i</sub>在Rise_set与Drop_set的出现次数;(2.2)基于二元正态分离(BNS)统计方法,从特征集合FS中选择具有显著预测性能的2‑词汇组合特征,并构建特征向量FV=[F<sub>1</sub>,F<sub>2</sub>,...,F<sub>m</sub>];(2.3)基于tf‑idf表示方法,以FV的特征元素作为基本维度,为各新闻文本计算特征向量的tf‑idf表示;(2.4)以News_base中所有新闻文本的tf‑idf特征向量集合,及各新闻文本的作用类型effect集合作为训练集,基于统计学习理论训练支持向量机,作为金融时间序列的预测模型Φ;(3)时序相关新闻主题查询,具体包括以下子步骤:(3.1)设金融时间序列的最新采样值及采样时刻为(x<sub>e</sub>,t<sub>e</sub>),以该时刻为终点,以t<sub>e‑L+1</sub>时刻为起点,截取长度为L的金融时间序列作为查询时间序列Q,不失一般性,将Q表示为Q={(x<sub>1</sub>,t<sub>1</sub>),(x<sub>2</sub>,t<sub>2</sub>),...,(x<sub>L</sub>,t<sub>L</sub>)};(3.2)词汇相关性度量,具体包括以下子步骤:(3.2.1)按照查询时间序列Q的时间戳顺序,依次从索引I中查询时间戳为t<sub>i</sub>的文本集合C<sub>i</sub>,构造Q的相关文本集合C={C<sub>1</sub>,C<sub>2</sub>,...,C<sub>i</sub>,...,C<sub>n</sub>};(3.2.2)对每个文本子集C<sub>i</sub>统计词频分布,为C的各词汇元素term<sub>j</sub>构造词频时间序列TF_Seque<sub>j</sub>;(3.2.3)基于动态时间弯曲距离,分别计算各词频时间序列TF_Seque<sub>j</sub>与查询时间序列Q的相似度,作为相应词汇term<sub>j</sub>与Q的相关度term_corr<sub>j</sub>,并构造词汇相关度表table;(3.3)文本主题相关性度量,具体包括以下子步骤:(3.3.1)依次读取文本集合C的每个新闻文本D<sub>i</sub>,计算其主题信息与查询时间序列Q的相关度topic_corr<sub>i</sub>;(3.3.2)根据文本主题相关度topic_corr,对C的所有新闻文本按照由大到小的顺序排列,保留前k个文本作为查询结果Result;(4)金融时间序列预测,具体包括以下子步骤:(4.1)构建预测集合<img file="FDA0000653648810000021.GIF" wi="248" he="60" />(4.2)依次读取Result的每个新闻文本D<sub>i</sub>;(4.3)根据步骤(2.3)的特征表示方法,将D<sub>i</sub>表示为tf‑idf特征向量fv<sub>i</sub>;(4.4)将fv<sub>i</sub>输入预测模型Φ,输出D<sub>i</sub>的作用类型effect<sub>i</sub>,加入Predict;(4.5)分别统计Predict中各种effect的数目,选择较多的作用类型作为最终预测结果。
地址 310058 浙江省杭州市西湖区余杭塘路866号