现阶段主流的股价预测模型
1.ARIMA模型
ARIMA模型(英语:AutoregressiveIntegratedMovingAverage model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是”自回归”,p为自回归项数;MA为”滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。“差分”一词虽未出现在ARIMA的英文名称中,却是关键步骤。ARIMA 模型是在平稳的时间序列基础上建立起来的,因此时间序列的平稳性是建模的重要前提。检验时间序列模型平稳的方法一般采用 ADF 单位根检验模型去检验。当然如果时间序列不稳定,也可以通过一些操作去使得时间序列稳定(比如取对数,差分),然后进行 ARIMA 模型预测,得到稳定的时间序列的预测结果,然后对预测结果进行之前使序列稳定的操作的逆操作(取指数,差分的逆操作),就可以得到原始数据的预测结果。
2.基于随机过程的马尔科夫链模型
马尔科夫过程是研究事物状态以及其状态转移规律的理论,适合于时间序列以及空间序列,一个时间与状态都是离散的马尔科夫过程叫做马尔科夫链,也叫马氏链(Markov Chain),马氏链模型是一类描述随机动态系统的模型,其特点是①系统每个时刻所处的状态都是随机的,②从一个时刻到下一个时刻的状态按照一定的概率转移,③下一个时刻的状态只取决于当前时刻的状态和转移概率,与其他时刻状态无关。
3.基于SVM的模型
支持向量机(SVM)是Vapnik和Cortes于1995年首先提出的,建立在统计学习理论的VC维理论和结构风险最小原理基础上的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。支持向量机将非线性问题映射到高维空间,引入核函数,解决了非线性分类问题。支持向量回归(SVR)是支持向量机的推广,通过引入ε不敏感损失函数,将问题转化为通过对已知的样本数据学习找到一个拟合函数,对未知的数据进行预测,这个函数f(x)对实际的 值最大偏差为ε,从而构建回归模型。在金融领域的应用中,Trafalis和Ince研究发现SVR的预测精度远高于MLP(多层感知机)和ARIMA(差分滑动平均自回归模型),并且与神经网络相比有更加出色的性能。
4.基于XGBoost集成树模型
XGBoost算法是陈天奇博士于2016年提出的基于回归树的提升算法,在市场价格估计、高能物理事件分类、网络文本分类、客户行为分析等诸多机器学习任务中均表现了出色的性能,并且算法因其高度可扩展性和并行化能力,在大规模数据回归和分类任务上也有着优异的表现。2017年,Ren年将XGBoost与卷积神经网络结合,用于图像分类;同年,Chen将加权的XGBoost模型应用于雷达信号分类并取得了很好的效果。
5.基于深度学习的模型
近年来,深度学习方法在人工智能领域取得了突破性的进展,深度神经网络在图像识别、人脸检测与识别、语音识别、目标捕捉、机器翻译等多个领域都有长足的进步。一方面由于积累的数据量的提高,达到了深度学习所需要的量级,另一方面,机器运算性能的提升,也使深度学习方法有了硬件的基础。深度学习方法可以通过组合浅层次的特征形成更加抽象的高层特征表示,以发现数据的深层次隐含关系,通过多层神经网络的堆叠和激活函数的选取,可以更好地拟合复杂的非线性函数。由于市场规律的复杂性、市场价格的波动性、影响因素的多样性,仅仅依赖传统的策略分析和模型不足以应对这些挑战,而深度学习方法的引入,能够提高对这些问题的解决能力,训练出泛化能力更强的模型,对股票投资来说是具有重要的参考意义。
由于股价数据具有很强的时间关联性,我们自然想到使用LSTM(Long Short-Term Memory)或者GRU(Gated Recurrent Unit)模型挖掘股价数据在时间上的相关性。同时,中国股票市场受政策面影响很大,经济新闻和上市公司财报等文本数据也会成为股价波动的重要原因。目前研究者们普遍在股价数据的时间序列特征和经济金融信息文本特征两个大方面,使用深度学习模型对其进行预测和分析,也有学者综合以上两种特征,构造既包括技术面参数也包括基本面分析的股价特征向量,输入到模型进行学习,均取得了不错的效果,并有多种模型已经使用到荐股软件或者金融领域中。本文作为综述,只简单的介绍模型以及其基本原理,并期待相关模型能在论文和实验中表现出优秀的性能。
当前研究的局限性
1.在股票特征选择上,直接将股票的技术指标或者基本面指标作为训练数据,缺乏对特征的预处理和特征提取,造成特征冗余或者特征属性片面化,不利于模型发现和学习数据特征真实的意义。
2.在模型选择上,普遍应用单一模型进行预测,没有充分运用机器学习多种不同模型的优势,特征选择上按照经验做法或者行业普遍习惯,没有让计算机自主发现特征的规律,参数调优也依靠经验和已有的成功案例,没有让计算机根据预测结果自主探索参数空间的各种可能性。
本系统所要解决的主要问题和创新点
本系统所要解决的主要问题:
1.国内的研究者主要关注单一模型对股市预测任务的解决能力,国外研究者已经尝试通过多种机器学习模型对美股进行预测,并取得了不错的效果。选题所要解决的主要问题是多种模型之间参数的传递、调试以及全局学习率等参数的设置与调试,并尝试构建超参数空间,将超参数也作为训练数据,将传统机器学习从业者调参的经验通过机器学习的方式固定下来,以便于应对多种复杂的股价波动场景。
2.由于中国股市偏向于政策市场,与美股资本市场有较大区别,所以选题在数据特征选择方面对技术指标和政策面、基本面指标均有涉及,并尝试使用组合的特征向量对模型进行训练,以全面挖掘市场和政策信息对股价的影响。
3.对于基金投资公司和机构投资者而言,持股策略偏向稳重,不会在短期内高频交易,买卖时机更倾向于中长线。选题所选用的数据特征以及预期的预测结果更倾向于为机构投资者这样的用户使用,而不是为散户等高频交易人员使用。当然,模型本身也可以接受每分钟交易情况,并预测一日内股价涨跌,这个目标作为本选题的中长期目标,期待在后期进行实现。
创新点:
1.使用VAE、GAN等非监督生成模型对股价进行预测,而不是传统的非线性回归模型,这在国内的研究领域内还属于未被开垦的荒地。
2.使用DRL深度强化学习调整超参数,控制整体模型,并通过反复迭代逼近真实股价走势,这种方法在机器人控制、自动驾驶领域方兴未艾,AlphaGo、AlphaMaster等围棋人工智能也是基于马尔科夫链蒙特卡洛方法的强化学习模型进行训练的,目前国内外研究者还鲜有在其他领域进行迁移和尝试。选题尝试将其迁移至股价预测模型研究,并作为辅助的调参手段,期待其能自主探索机器学习最优的模型。