顿搜
差分自回归移动平均(ARIMA)——机器学习经典回归算法
时间序列平稳性
平稳性要求经由样本时间序列得到的拟合曲线在未来的一段时间内仍然能够顺着现有的形态“惯性”地延续下去。
平稳性要求序列的均值和方差不发生明显变化
严平稳
分布不随时间变化而变化。比如正态分布,无论怎么取值,期望都是0,方差都是1.
弱平稳
期望与相关系数(即依赖性)在一定范围内保持不变。换句话说,未来某时刻 t 对应的值 $x_t$ 要依赖于它的过去信息。
差分法
时间序列在 t 与 t-1 时刻的差值
相关函数评估
自相关函数 ACF
ACF—— autocorrelation function
有序的随机变量序列与其自身相比较,自相关函数反映了同一序列在不同时序的取值之间的相关性
公式如下
$$ACF(k) = p_k = \frac{Cov(y_t,y_t-k)}{Var(y_t)}$$
$p_k$ 的取值范围为 [-1, 1]
偏自相关函数(PACF)
PACF —— partial autocorrelation function
ACF 除了包含 $t-k$ 时刻 与 t 时刻的关系外,还包含了 $t-1,t-2,...,t-k+1$ 与 t 时刻的关系
PACF 仅仅包含了 $t-k$ 时刻 与 t 时刻的关系
自回归模型(AR)
“自”表示没有变量与变量之间的关系,只有当前值与历史值之间的关系
- 描述了当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。
- 自回归必须满足平稳性的要求
p 阶自回归公式
$$y_t = \mu + \sum_{i=1}^{p}\gamma_iy_{t-i} + \epsilon_t$$
p 是阶数,一阶表示 t 与 t-1 有关, 二阶表示 t 与 t-1, t-2 有关
$\mu$ 是常数项
$\gamma_i$ 是自相关系数
$\epsilon_t$ 是误差项
$y_t$ 是当前值
自回归模型的限制
- 自回归模型是用自身的数据来进行预测
- 必须具有平稳性
- 必须具有自相关性,如果自相关系数 $\varphi_i \lt 0.5$,则不宜采用
- 自回归只适用于预测与自身前期相关的现象
移动平均模型(MA)
移动平均模型关注的是自回归模型中的误差项的累加
q 阶自回归公式
$$y_t = \mu + \epsilon_t + \sum_{i=1}^{q}\theta_i\epsilon_{t-i}$$
移动平均法能有效地消除预测中的随机波动
自回归移动平均模型(ARMA)
自回归与移动平均的结合
公式
$$y_t = \mu + \sum_{i = 1}^{p}\gamma_iy_{t-i} + \epsilon_t + \sum_{i=1}^{q}\theta_{i}\epsilon_{t-i}$$
差分自回归移动平均模型
英文名—— Autoregressive Integrated Moving Average Model, 简称 ARIMA
将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型
AR 是自回归,p 为自回归阶数;
MA 为移动平均,q 为移动平均项数(阶数)
d 为时间序列成为平稳时所做的差分次数
ARIMA 阶数的确定
| 模型 | ACF | PACF |
|---|---|---|
| AR(p) | 衰减趋于0(几何型或震荡型) | p 阶后截尾 |
| MA(q) | q 阶后截尾 | 衰减趋于0(几何型或震荡型) |
| ARMA(p,q) | q 阶后衰减趋于0(几何型或震荡型) | p 阶后衰减趋于0(几何型或震荡型) |
截尾:落在置信区间内(95% 的点都符合该规则)
ARIMA 建模流程
- 序列平稳化,差分法确定 d
- 画出 ACF 与 PACF 图,确定 p 和 q
- 使用 ARIMA(p,d,q) 模型
模型评估
赤池信息准则(AIC) 与 贝叶斯信息准则(BIC)中选择值小的,即选择 g 更简单的模型
赤池信息准则(AIC)
AIC —— Akaike Information Criterion
$$AIC = 2k - 2\ln(L)$$
贝叶斯信息准则(BIC)
BIC —— Bayesian Information Criterion
$$BIC = k\ln(n) - 2\ln(L)$$
k 为模型参数个数,n 为样本数量,L为似然函数
模型残差检验
ARIMA 模型的残差是否是平均值为 0 且方差为常数的正态分布