基于新闻主题信息检索的金融时间序列预测方法,申请号CN201510008836.0-传众专利搜索

发明名称	基于新闻主题信息检索的金融时间序列预测方法
摘要	本发明公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征，并以新闻数据对金融时间序列的实时影响作为标记，训练支持向量机分类器作为预测模型；通过构建词频时间序列，有效度量词汇特征与时间序列的相关度，继而实现新闻主题与时间序列的相关度计算，由此查询与金融时间序列相关的新闻主题；通过对查询出的新闻数据提取词汇组合特征并输入预测模型，得到最终预测结果。本发明可有效预测新闻数据对金融时间序列的影响，帮助人们理解和把握两类数据之间的信息传递；在金融交易市场中，为投资者做舆情分析和投资决策提供了准确的指导。
申请公布号	CN104573003A	申请公布日期	2015.04.29
申请号	CN201510008836.0	申请日期	2015.01.08
申请人	浙江大学	发明人	蔡青林;陈岭;孙建伶;陈蕾英
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	邱启旺
主权项	一种基于新闻主题信息检索的金融时间序列预测方法，其特征在于，包括以下步骤：(1)数据预处理，具体包括以下子步骤：(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set；(1.2)依次读取新闻数据库News_base的每个新闻文本D<sub>i</sub>；(1.3)对D<sub>i</sub>解析并分词；(1.4)除去D<sub>i</sub>中所有停用词，并以D<sub>i</sub>的发布时间作为时间戳t对其标记；(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T＝{(x<sub>1</sub>,t<sub>1</sub>),(x<sub>2</sub>,t<sub>2</sub>),...,(x<sub>i</sub>,t<sub>i</sub>),...,(x<sub>n</sub>,t<sub>n</sub>)}；(1.6)比较x<sub>1</sub>与x<sub>n</sub>的大小，标记D<sub>i</sub>对T的作用类型effect，并根据effect选择将D<sub>i</sub>加入Rise_set或Drop_set；(1.7)以时间戳t作为索引项，对文本数据库构建B<sup>+</sup>‑树索引I；(2)预测模型构建，具体包括以下子步骤：(2.1)从新闻数据库News_base中提取2‑词汇组合特征F，构建特征集合FS＝{F<sub>1</sub>,F<sub>2</sub>,...,F<sub>i</sub>,...,F<sub>N</sub>}，并构建特征矩阵RFM与DFM，分别存储特征F<sub>i</sub>在Rise_set与Drop_set的出现次数；(2.2)基于二元正态分离(BNS)统计方法，从特征集合FS中选择具有显著预测性能的2‑词汇组合特征，并构建特征向量FV＝[F<sub>1</sub>,F<sub>2</sub>,...,F<sub>m</sub>]；(2.3)基于tf‑idf表示方法，以FV的特征元素作为基本维度，为各新闻文本计算特征向量的tf‑idf表示；(2.4)以News_base中所有新闻文本的tf‑idf特征向量集合，及各新闻文本的作用类型effect集合作为训练集，基于统计学习理论训练支持向量机，作为金融时间序列的预测模型Φ；(3)时序相关新闻主题查询，具体包括以下子步骤：(3.1)设金融时间序列的最新采样值及采样时刻为(x<sub>e</sub>,t<sub>e</sub>)，以该时刻为终点，以t<sub>e‑L+1</sub>时刻为起点，截取长度为L的金融时间序列作为查询时间序列Q，不失一般性，将Q表示为Q＝{(x<sub>1</sub>,t<sub>1</sub>),(x<sub>2</sub>,t<sub>2</sub>),...,(x<sub>L</sub>,t<sub>L</sub>)}；(3.2)词汇相关性度量，具体包括以下子步骤：(3.2.1)按照查询时间序列Q的时间戳顺序，依次从索引I中查询时间戳为t<sub>i</sub>的文本集合C<sub>i</sub>，构造Q的相关文本集合C＝{C<sub>1</sub>,C<sub>2</sub>,...,C<sub>i</sub>,...,C<sub>n</sub>}；(3.2.2)对每个文本子集C<sub>i</sub>统计词频分布，为C的各词汇元素term<sub>j</sub>构造词频时间序列TF_Seque<sub>j</sub>；(3.2.3)基于动态时间弯曲距离，分别计算各词频时间序列TF_Seque<sub>j</sub>与查询时间序列Q的相似度，作为相应词汇term<sub>j</sub>与Q的相关度term_corr<sub>j</sub>，并构造词汇相关度表table；(3.3)文本主题相关性度量，具体包括以下子步骤：(3.3.1)依次读取文本集合C的每个新闻文本D<sub>i</sub>，计算其主题信息与查询时间序列Q的相关度topic_corr<sub>i</sub>；(3.3.2)根据文本主题相关度topic_corr，对C的所有新闻文本按照由大到小的顺序排列，保留前k个文本作为查询结果Result；(4)金融时间序列预测，具体包括以下子步骤：(4.1)构建预测集合<img file="FDA0000653648810000021.GIF" wi="248" he="60" />(4.2)依次读取Result的每个新闻文本D<sub>i</sub>；(4.3)根据步骤(2.3)的特征表示方法，将D<sub>i</sub>表示为tf‑idf特征向量fv<sub>i</sub>；(4.4)将fv<sub>i</sub>输入预测模型Φ，输出D<sub>i</sub>的作用类型effect<sub>i</sub>，加入Predict；(4.5)分别统计Predict中各种effect的数目，选择较多的作用类型作为最终预测结果。
地址	310058 浙江省杭州市西湖区余杭塘路866号