您的当前位置:首页正文

基于ARMA模型的沪深300股指期货高频数据收益率研究与预测

2022-02-04 来源:我们爱旅游
基于ARMA模型的沪深300股指期货高频数据收益率研究

与预测

王苏生;王俊博;李光路

【摘 要】本文选取沪深300股指期货10个交易日每秒两笔的日内高频数据作为研究对象,研究了高频日内收益率分布特征,发现日内高频数据有波动率聚集现象但其分布并没有尖峰后尾现象.我们通过自相关函数和偏自相关函数发现日内高频收益率存在较强的自相关性.文章运用EACF方法确定了各样本ARMA的阶数,并通过最小二乘法估计了各模型系数.研究发现,ARMA模型能够很好地消除股指期货日内收益率的相关性,即能够刻画股指期货日内收益率的动态变化过程.最后我们利用已经估计的ARMA模型对收益率做了预测.

【期刊名称】《华北电力大学学报(社会科学版)》 【年(卷),期】2018(000)003 【总页数】9页(P71-79)

【关键词】高频数据;ARMA模型;沪深300股指期货;日内模式;收益率预测 【作 者】王苏生;王俊博;李光路

【作者单位】哈尔滨工业大学(深圳)经济与管理学院,广东深圳518055;哈尔滨工业大学(深圳)经济与管理学院,广东深圳518055;哈尔滨工业大学(深圳)经济与管理学院,广东深圳518055 【正文语种】中 文 【中图分类】F830.91

股指期货作为国际金融市场中比较成熟的衍生品之一,已被公认是回避股市风险最为有效的风险管理工具之一,大多数发达国家已经推出不同种类的股指期货品种,其中比较出名的有标准普尔指数(S&P 500)期货、伦敦金融时报指数(FTSE 100)期货、日经股票平均指数(Nikkei 225)期货等。2010年4月16日,中国金融期货交易所推出了沪深300股指期货交易品种,彻底打破了中国证券市场长期以来的单边多头交易格局,完善市场避险机制,迎来了证券市场发展的新起点,在中国建立多层次资本市场的道路上迈出坚实的一步。信息技术的极大发展降低了数据记录与存储的成本,使得大样本数据的分析称为可能。数据样本规模越大,所包含的信息也就越多,因此很多学科领域的数据样本收集都以最大频率收集,一般我们称这样的数据为高频数据(high frequent data)。金融学中的高频数据一般是指每日记录多个交易记录的数据,甚至有些高频交易记录甚至可以达到秒级。不同于低频金融数据,高频金融数据一般具有较强的日内模式和自相关性等特点。

收益率是股指期货非常重要的指标,它直接衡量投资者收益的大小,直接决定着投资的成败。在金融理论研究中,很多的金融资产收益率时间序列并不是不相关的,而是与滞后期历史序列存在持续的、时间上的依赖关系,我们把这种特性描述为长记忆性。在以往的研究中很多金融资产均具有长记忆性:Ding、Granger 和 Engle(1993)[1]利用自相关函数验证了美国股票S&P500 股指日收益率具有显著的长记忆性特征。苑莹、杜乐鹿和庄新田(2012)[2]验证了沪深股票指数收益率与交易量均具有长记忆性特征。李艳与吴亮(2016)[3] 运用频域的检验方法分析了沪深300股指期货,发现对数极差波动率的偏度和峰度为自相关系数呈缓慢衰减,显示出长记忆性。而ARMA模型虽然形式简单,但却是衡量金融资产长记忆性的优良工具。

在本文中,我们选取10个交易日的沪深300股指期货日内高频数据收益率作为研

究对象,对样本预处理、分析以求发现沪深300股指期货日内高频波动率的分布特征与日内模式。通过ACF和PACF方法建立最优的ARMA模型,动态刻画股指期货日内高频收益率变化过程。最后对收益率做相向前预测。运用如此高频的研究样本这在以往的沪深300股指期货的研究中未曾出现过,将有助于我们更加深入了解沪深300股指期货日内市场微观结构。 一、模型及方法介绍

自回归滑动平均模型(ARMA模型)是研究时间序列的重要方法,它是由自回归模型(AR模型)与滑动平均模型(MA模型)混合而成,最早由Box,Jenkins和Reinsel(1994)[4]提出。如果对于一个平稳时间序列rt,我们可以用ARMA模型来描述其动态变动规律。不失一般性,一个ARMA(p,q)可以表示为:

θjεt-j+εt (1)

其中,εt为扰动项,p和q都是非负整数,φ0为常数,φi为模型自回归系数,θj为模型移动平均项系数。AR和MA是ARMA(p,q)模型的特殊形式,ARMA模型既包含自回归项,也包含移动平均项,即当p=0时,ARMA(p,q)模型退化成MA(q)模型;当q=0时,ARMA(p,q)模型退化成AR(p)模型。

对于ARMA(p,q)模型的建模一般包含以下几步:1、模式识别,确定模型适用于AR模型、MA模型还是ARMA模型;2、模型定阶,确定最优滞后阶数p和q;3、参数估计,运用历史数据对所建立模型的参数进行估计;4、回归模型检验,对模型的适用性和稳定性进行检验;5、最后利用我们建立好的模型对该时间序列未来的取值做预测。我们也遵循这个研究的一般流程来研究沪深300股指期货的日内波动率。

针对平稳的时间序列,需要率先要识别其所适合的模型,在这个过程中,我们将用

到自相关函数和偏自相关函数。根据以往的研究,服从ARMA(p,q)模型的时间序列具有明显的统计特征,其自相关函数与偏自相关函数呈现拖尾或截尾现象,所以其模型的识别可以通过其自相关或者偏自相关的拖尾现象或者截尾现象来确定,具体判定方法详见下表:

表1 ARMA模型的自相关函数与偏自相关函数的基本特征

模型类型自相关系数偏自相关系数AR(p)呈几何衰减(拖尾)k>p阶后截止为0(截尾)MA(q)k>q阶后截止为0(截尾)呈几何衰减(拖尾)ARMA(p,q)在k>q-p后呈几何衰减(拖尾)在k>p-q后呈几何衰减(拖尾)

Tsay和Tiao(1984)[5]提出的使用推广自相关函数(EACF)来确定ARMA的阶,这个方法是通过得到模型AR部分相结合估计,然后导出MA部分,从而获得ARMA模型的阶。再根据信息准则(AIC)确定ARMA(p,q)中最优的参数,本文我们也采用这个方法对模型参数进行估计。

估计完模型参数后,我们可以利用估计的有效参数来对未来收益率做预测。假设预测原点为h,Fh为h时刻所能得到的信息集合,rh+1的向前一步预测为:

θiah+1-i (2)

相应的预测误差为:

向前一步预测误差的方差为:

同理,相应地向前l步预测可以表示为:

-θiah(l-i)

(5)

其中,当l-i≤0时,当l-i>0时,ahl-i=0,当l-i<0时,ahl-i=ah+l-i。这样ARMA向前l步预测可以通过不断的迭代来计算得到。相应的预测误差为:

二、日内高频数据统计性描述

本文研究的对象是沪深300股指期货日内高频收益率,因此我们选择相应的日内高频数据为研究样本,总样本区间是2010年10月到2013年5月股指期货全部合约的样本,其研究样本的抽样频率为每秒两笔,因为样本量巨大,我们不可能拿全部样本来做研究,但也为了不失一般性,我们先选择2012年5个连续交易日的高频数据样本,然后再在2013年随机抽取5个高频数据样本作为研究对象。5个连续的抽样样本我们采用沪深300股指期货合约IF1207和IF1208 2012年7月2日至2012年7月6日共5个交易日的股指期货交易数据为研究样本,该样本选取每秒2笔的超高频数据来刻画股指期货日内模式的变化。针对同一时间不同合约的同时进行交易的情况,我们按照交易量最活跃的主力和月来构造连续的期货合约。之所以这么选是考虑到7月股指期货交易日连续,节假日效应对日内波动率的影响最小。另外五个随机抽取的样本为2013年2月19日、3月5日、3月12日、4月1日、4月12日这五天的交易样本。十个不同的研究样本,每个样本包含超过两万条观察记录,足够我们做出客观的研究结果,发现股指期货运行的规律。 由于各种原因,未处理的原始数据包含很多错误,如果我们使用未处理过的数据做回归,可能会导致伪回归和系数不准确等不良结果。因此我们在做数据分析和模型的实证检验之前,需要对观测样本进行过滤。在本论文中,我们首先把观测到的数据去掉异常值和0值的数据,这些异常值包括但不限于超出交易时间记录的观测值,以使得观测的样本数据保持整洁;其次,我们剔除每个观测样本开盘第一分钟和收盘前一分钟的数据,这样做的目的主要是为了减少隔夜信息对日内波动率的冲

击,造成数据异常的现象,如:数据峰度偏高、异常值增多等现象,因此我们需要剔除该数据,待市场消化隔夜信息后,平稳的数据更能反映日常运行的规律。 数据预处理之后我们需要了解日内收益率的数据特征,它可以帮助我们初步认识金融变量的基本规律。对于一个连续型随机变量X,我们可以将其l阶矩定义为:

其中E表示期望,f(x)表示X的概率密度函数,一阶矩称为X的均值或者期望,它度量的是样本的分布中心位置,记为μx,X的l阶中心矩可以定义为:

假定上式中积分存在,二阶中心距可以度量X取值的变化程度,称为X的方差,记为,方差的平方根σx记为X的标准差。三阶中心矩度主要度量X关于均值的对称性,而四阶中心距则度量X的尾部,在统计学中,标准化三阶矩叫做偏度(skewness),标准化四阶矩叫做峰度(kurtosis),主要用来描述随机变量的对称程度和尾部特征,具体地,X的偏度和峰度可以定义为: ,

一般我们将峰度K(x)-3作为超额峰度的测量,因为正态分布的峰度为3.在应用中,我们可以用相应的样本偏度和样本峰度来估计偏度和峰度。假设X有T个观测值:{x1,…,xT}则其样本均值为:

样本方差为:

样本偏度为:

样本峰度为:

为了研究的便利性,在这里我们对每个抽取到的观测样本进行编号,用

Sample1,Sample2,…, Sample5分别代表2012年7月2日至2012年7月6日连续抽样样本;用Sample6,Sample7,…, Sample10分别代表2013年2月19日、3月5日、3月12日、4月1日、4月12日离散抽样样本。下面我们给出数据预处理前后个抽样样本的数据统计性描述: 表2 预处理前的数据统计性描述

样本样本数均值标准差最小值最大值偏度峰度标准误差Sample13238000.01-0.060.322.36101.170Sample23239200.01-0.060.110.123.280Sample33239000.01-0.060.160.287.020Sample43239100.01-0.050.070.082.020Sample53240000.01-0.080.060.032.680Sample63240300.01-0.060.100.082.870Sample73240500.01-0.070.200.265.440Sample83240600.01-0.110.08-0.042.340Sample93237200.01-0.060.060.021.550Sample103240000.01-0.060.080.041.250

注:数据来源于中国金融期货交易所。

从表2和表3中,我们可以看出,沪深300股指期货日内高频数据日内采样观测样本数32400左右,数据预处理后日内有效观测样本在30000左右,最高样本数据剔除率是Sample1,为8.68%,最低的为样本Sample7,为1.52%,均值为4.80%,这说明观测样本所记录的有效价格率很高,超高的流动性,要求更高的抽样频率来记录价格信息。研究发现数据预处理对观测样本的均值和方差并无影响,其均值为零,方差为0.01;样本偏度和峰度收预处理的影响较大,处理后的观测

样本偏度和峰度有明显的下降。我们把研究的重点放在处理后的观测样本上。从样本统计数据中可以明显看出,处理后的样本偏度尽管很小,但其大部分为正,其收益率分布不完全对称,这可能反映高频金融资产的杠杆性,有待于我们进一步验证。观测样本峰度均小于3,这说明观测样本不具有尖峰后尾性,我们认为这与样本的抽样频率有关。

表3 预处理后的数据统计性描述

样本样本数均值标准差最小值最大值偏度峰度标准误差Sample12956800.01-0.060.060.011.310Sample23008700.01-0.060.060.041.90Sample33025600.01-0.060.060.011.260Sample43012500.01-0.050.070.081.720Sample53044900.01-0.060.060.062.130Sample63133700.01-0.060.100.082.750Sample73191200.01-0.070.060.041.360Sample83172800.01-0.110.08-0.022.160Sample93154900.01-0.060.060.021.400Sample103137300.01-0.060.0400.790

注:数据来源于中国金融期货交易所。

沪深300股指期货日内收益率上下波动基本对称,高频日内波动率波动区间较窄,但异常值较多;无明显日内特征,但存在一定的波动率聚集现象。这说明沪深300股指期货日内流动性非常强,风险也较大。

时间序列的平稳性检验是时间序列分析的基础。它要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去;如果数据非平稳,则说明样本拟合曲线的形态不具有“惯性”延续的特点,也就是基于未来将要获得的样本时间序列所拟合出来的曲线将迥异于当前的样本拟合曲线。可见,

时间序列平稳是经典回归分析赖以实施的基本假设;只有基于平稳时间序列的预测才是有效的。如果数据非平稳,则作为大样本下统计推断基础的“一致性”要求便被破坏,基于非平稳时间序列的预测也就失效。

定义1:如果对一个时间序列rt,对所有的t,任意正整数k和任意k个正整数t1,…,tk,(rt1,…,rtk)的联合分布与(rt1+t,…,rtk+t)的联合分布是相同的,我们称时间序列rt为严平稳性(strictly stationary)。

定义2:如果rt的均值与rt和rt-l的协方差不随时间而改变,其中l是任意整数。我们称时间序列rt为弱平稳性(weekly stationary)。

因为严平稳过程要求序列的联合分布在时间的平移变换下保持不变,这个条件很强,一般我们都选择验证时间序列的弱平稳性。在这里我们选择单根检验(ADF检验)来检验样本时间序列的平稳性。

从ADF检验结果可以看出,所选序列均符合弱稳定性的假设条件,即所有观测样本时间序列均稳定。

表4 股指期货日内高频数据ADF检验结果

样本DF检验值P值序列是否稳定Sample1-31.320.01stationarySample2-29.870.01stationarySample3-30.290.01stationarySample4-31.060.01stationarySample5-30.860.01stationarySample6-31.540.01stationarySample7-31.150.01stationarySample8-31.180.01stationarySample9-30.130.01stationarySample10-32.410.01stationary

表5 最优参数的ARMA模型系数估计结果

最优ARMA模型参数估计值误差T检验Pr(>|t|)显著性Sample1-ARMA(2,1)AR1-2.912e-012.842e-02-10.247<2e-16***AR2-1.036e-011.332e-02-7.7757.55e-15***MA1-1.887e-012.835e-02-6.6572.80e-11***

截距-1.751e-053.264e-05-0.5360.592-Sample2-ARMA(2,1)AR1-3.338e-01 3.607e-02 -9.254<2e-16***AR2-9.796e-021.494e-02-6.5585.45e-11***MA1-9.388e-023.608e-02-2.6020.009**截距8.057e-063.770e-050.2140.831-Sample3-ARMA(2,1)AR1-3.767e-01 3.103e-02-12.141<2e-16***AR2-1.234e-011.325e-02-9.309<2e-16***MA1-6.520e-023.107e-02-2.098 0.036*截距-1.116e-053.932e-05-0.284 0.777-Sample4-ARMA(2,1)AR1-3.658e-012.971e-02-12.316 <2e-16***AR2-1.186e-011.265e-02-9.374<2e-16***MA1-6.875e-022.966e-02-2.3180.020*截距-4.407e-053.976e-05-1.1080.268-Sample5-ARMA(2,1)AR1-5.078e-014.599e-02-11.043<2e-16***AR2-1.308e-011.636e-02-7.997 1.33e-15***MA11.334e-014.615e-022.8900.004**截距8.660e-05 5.328e-051.6250.104-Sample6-ARMA(3,1)AR19.437e-02 4.894e-021.9280.054.AR21.117e-011.436e-027.7837.11e-15***AR36.486e-02 5.700e-0311.379<2e-16***MA1-3.746e-01 4.884e-02 -7.6691.73e-14***截距-3.693e-052.897e-05-1.2750.202-Sample7-ARMA(4,1)AR1-4.769e-025.870e-02-0.8120.417-AR21.074e-011.530e-027.0192.24e-12***AR31.087e-016.770e-0316.056<2e-16***AR44.946e-028.915e-035.5482.89e-08***MA1-2.041e-015.865e-02-3.4800.001***截距6.097e-05 4.395e-051.3870.165-Sample8-ARMA(4,1)AR1-1.730e-018.380e-02-2.0650.039*AR27.680e-021.971e-023.8979.73e-05***AR31.045e-018.088e-0312.920 <2e-16***AR44.258e-021.038e-024.1014.10e-05***MA1-5.739e-028.376e-02-0.6850.493-截距-3.374e-055.347e-05-0.6310.528-Sample9-ARMA(4,1)AR1-1.130e-018.317e-02-1.3590.174-AR24.533e-022.570e-021.7630.078.AR36.898e-025.719e-0312.062<2e-16***AR43.820e-

027.535e-035.0703.97e-07***MA1-1.931e-018.318e-02-2.3210.020*截距1.127e-054.028e-050.2800.780-Sample10-ARMA(2,1)AR1-3.913e-013.225e-02-12.134<2e-16***AR2-1.321e-011.341e-02-9.846<2e-16***MA1-4.408e-023.240e-02-1.3600.174-截距-2.110e-05 3.881e-05-0.5440.587-

注:0, ‘***’ 0.001,‘**’ 0.01, ‘*’ 0.05, ‘.’ 0.1, ‘ ’ 1。 三、模型识别与估计

我们根据前面的建模步骤,使用EACF方法确定各个样本ARMA模型的最优参数,并利用最小二乘法对其模型系数做估计,具体结果如下:

首先从我们确定的最优ARMA模型的参数可以看出,连续时间段样本(Sample1-Sample5)均可以用ARMA(2,1)模型来描述其收益率动态变化过程,而随机选取的研究样本,则最优参数不一,Sample7、Sample8和Sample9均可以用ARMA(4,1)模型来描述其动态变化过程,总体来看,收益率序列存在较强的序列相关性,大部分模型的自回归系数估计通过显著性检验。于是我们就得到了每个样本最优的ARMA模型,但在对样本预测前,我们需要对所建立的模型做模型诊断,即检验拟合后的时间序列残差是否为白噪声,如果拟合序列的残差是白噪声,则说明模型拟合充分,我们可以利用已建立的模型对时间序列做一步或者多步预测;如果拟合后的时间序列的残差不是白噪声,则说明我们模型拟合不充分,需要更改新的模型。针对残差序列是否为白噪声的检验,我们一般采取Box-Pierce检验来完成,其原假设H0:是序列残差为白噪声,如果检验结果拒绝原假设,则我们需要考虑重新建立拟合模型。下表是我们对各个样本模型拟合后的残差的Box-Pierce检验结果:

表6 拟合残差Box-Pierce检验结果

样本残差χ2P值接受或者拒绝原假设Sample10.0040.948接受原假设

Sample20.0020.965接受原假设Sample30.0020.967接受原假设Sample40.0020.940接受原假设Sample50.0210.886接受原假设Sample60.0240.877接受原假设Sample70.0010.980接受原假设Sample86.22e-111接受原假设Sample90.0080.931接受原假设Sample100.0010.982接受原假设

从Box-Pierce检验结果可以看出,所有结果均接受原假设,说明模型拟合后残差均为白噪声,说明模型拟合良好,这样我们就可以利用ARMA模型对沪深300股指期货日内收益率做预测。 四、预测

时间序列预测主要是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。我们在前面已经介绍了ARMA的预测模型:向前一步预测如公式4,向前多步预测如公式3-12。在对模型系数有效性估计后,我们就得到了各个研究样本的拟合模型,然后我们可以利用该模型预测公式对未来时间序列的收益率做预测。下表是我们对沪深300股指期货日内高频收益率做的向前5步点预测结果:

表7 股指期货高频收益率向前五步点预测结果

样本残差r+1r+2r+3r+4r+5Sample12.30e-031.48e-04-2.97e-045.37e-05-2.41e-06Sample22.26e-034.92e-05-2.31e-048.05e-053.68e-06Sample32.41e-038.59 e-05-3.45 e-041.10e-04-9.81e-06Sample43.44e-03-3.32e-04-3.35e-041.19e-04-4.83e-05Sample5-6.56e-044.24 e-04-4.44 e-055.31e-056.53e-05Sample6-2.27e-035.74e-042.43e-04-9.63e-051.87e-05Sample72.18e-037.97e-041.80e-04-2.44e-062.74e-04Sample8-2.21e-039.73e-044.54e-046.40e-05-1.65e-05Sample99.25e-04-1.22e-03-4.13e-049.84e-05-5.98e-05Sample102.34e-031.42e-04-3.91e-041.15e-04-1.43e-

05

沪深300股指期货高频数据的分布特征直接决定着其收益率波动的日内特征。因此我们选取了沪深300股指期货十个交易日的日内高频数据作为研究对象,抽样频率达到每秒两笔,其中连续交易日研究样本五个,随机抽取另外五个研究样本以便我们发现股指期货日内波动特征的不同。

我们考察了数据预处理前后研究样本数据收益率的统计特征,对比后发现股指期货日内高频数据的偏度和峰度对数据清理异常敏感。数据预处理后,其高频数据的偏度和峰度均有较大的降低。连续研究样本与随机抽取的五个样本在数据统计特征中并无较大差异,日内均无明显的规律,且均不存在传统高频数据的尖峰后尾现象。 接下来我们对样本时间序列稳定性检验,所有研究样本均符合弱稳定性假设,因此我们可以直接对研究样本做时间序列分析。在样本数据的自相关和偏自相关的检验中,我们发现股指期货日内高频数据存在较强的自相关性。根据以往样的研究经验,我们通过绘制ACF与PACF图,发现ARMA模型能够较好地拟合股指期货日内收益率动态变化过程。因此,建立合适的ARMA模型称为下一步我们需要做的重点工作。

EACF检验帮助我们确定了最优的ARMA模型的阶,我们利用最小二乘法,估计了各研究样本的系数,并通过t检验验证了模型系数的有效性。研究发现,在ARMA系数中,通过有效检验的自回归系数一般为负,这表明,收益率t期与t-1期相关系数为负,即在一个正的收益率后大概率跟随一个负的收益率,这就解释了证券市场绝大多是时间均处于震荡阶段。另外,连续观测样本均可用ARMA(2,1)来刻画其收益率动态变化过程,而随机抽取的研究样本则ARMA的参数不一,这说明股指期货日内运行规律可能存在随时间变化而变化的特性。

随后我们利用Box-Pierce检验了拟合后模型的残差序列,发现模型残差为白噪声,这表明我们建立的模型对日内收益模型的拟合是充分的,所建立的ARMA模型能

够刻画沪深300股指期货日内收益率动态变化过程,所建立的模型具有稳健性。 最后,我们利用已建立的ARMA模型对沪深300股指期货日内波动模式高频收益率做向前五步预测。 [参考文献]

【相关文献】

[1] Ding, Z., C.W.J. Granger and R.F. Engle, A Long Memory Property of Stock Market Returns and a New Model[J]. Journal of Empirical Finance, 1993(1): 83-106.

[2] 苑莹, 杜乐鹿,庄新田. 股市收益率与交易量长记忆性实证研究[J]. 东北大学学报(自然科学版), 2012(7): 1056-1059.

[3] 李艳,吴亮. 沪深300股指期货极差波动率的分布特征和长记忆性分析—基于频域的检验方法[J]. 渭南师范学院学报, 2016(19): 75-80.

[4] Box, G.E.P., G.M. Jenkins and G.C. Reinsel, Time Series Analysis: Forecasting and Control (Revised Edition)[J]. Journal of Marketing Research, 1994(2):199-201.

[5] Tsay, R. and G. Tiao, Consistent Estimates of Autoregressive Parameters and Extended Sample Autocorrelation Function for Stationary and Nonstationary ARMA Models[J]. Journal of the American Statistical Association, 1984(385):84-96.

因篇幅问题不能全部显示,请点此查看更多更全内容