预测技术之二——时间序列分析
时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。
它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计等知识之上,应用相关数理知识在相关方面的应用等。
时间序列是按时间顺序的一组数字序列。时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来事物的发展。时间序列分析是定量预测方法之一,它的基本原理:一是承认事物发展的延续性。应用过去数据,就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。该方法简单易行,便于掌握,但准确性差,一般只适用于短期预测。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。
时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。
一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
趋势:是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
季节变动:是时间序列在一年内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
循环波动:是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。
不规则波动:是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。
时间序列建模基本步骤是:
①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。
②根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。
③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。
系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。
系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。
预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值。
决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
用随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。由于在多数问题中,随机数据是依时间先后排成序列的,故称为时间序列。它包括一般统计分析(如自相关分析、谱分析等),统计模型的建立与推断,以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,用x(t)表示某地区第t个月的降雨量,{x(t),t=1,2,…}是一时间序列。对t=1,2,…,T,记录到逐月的降雨量数据x(1),x(2),…,x(T),称为长度为T的样本序列。依此即可使用时间序列分析方法,对未来各月的雨量x(T+l)(l=1,2,…)进行预报。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后,在军事科学、空间科学和工业自动化等部门的应用更加广泛。
就数学方法而言,平稳随机序列(见平稳过程)的统计分析,在理论上的发展比较成熟,从而构成时间序列分析的基础。
频域分析 一个时间序列可看成各种周期扰动的叠加,频域分析就是确定各周期的振动能量的分配,这种分配称为"谱",或"功率谱".因此频域分析又称谱分析。谱分析中的一个重要是统计量, 称为序列的周期图。当序列含有确定性的周期分量时,通过I(ω)的极大值点寻找这些分量的周期是谱分析的重要内容之一。在按月记录的降雨量序列中,序列x(t)就可视为含有以12为周期的确定分量,所以序列x(t)可以表示为 ,它的周期图I(ω)处有明显的极大值。
当平稳序列的谱分布函数F(λ)具有谱密度ƒ(λ)(即功率谱)时,可用(2π)-1I(λ)去估计?(λ),它是ƒ(λ)的渐近无偏估计。如欲求ƒ(λ)的相合估计,可用I(ω)的适当的平滑值去估计ƒ(λ),常用的方法为谱窗估计即取ƒ(λ)的估计弮(λ)为 ,式中wt(ω)称为谱窗函数。谱窗估计是实际应用中的重要方法之一。谱分布F(λ)本身的一种相合估计可由I(ω)的积分直接获得,即 .研究以上各种估计量的统计性质,改进估计方法,是谱分析的重要内容。
时域分析 它的目的在于确定序列在不同时刻取值的相互依赖关系,或者说,确定序列的相关结构。这种结构是用序列的自相关函0,1,…)来描述的,为序列的自协方差函数值,m=Ex(t)是平稳序列的均值。常常采用下列诸式给出m,γ(k),ρ(k)的估计: ,通(k)了解序列的相关结构,称为自相关分析。研究它们的强、弱相合性及其渐近分布等问题,是相关分析中的基本问题。
模型分析 20世纪70年代以来,应用最广泛的时间序列模型是平稳自回归-滑动平均模型 (简称ARMA模型)。其形状为: 式中ε(t)是均值为零、方差为σ2的独立同分布的随机序列;和σ2为模型的参数,它们满足: 对一切|z|≤1的复数z成立。p和q是模型的阶数,为非负整数。特别当q=0时,上述模型称为自回归模型;当p=0时, 称为滑动平均模型。根据x(t)的样本值估计这些参数和阶数,就是对这种模型的统计分析的内容。对于满足ARMA模型的平稳序列,其线性最优预测与控制等问题都有较简捷的解决方法,尤其是自回归模型,使用更为方便。G.U.尤尔在1925~1930年间就提出了平稳自回归的概念。1943年,Η。Β。曼和Α。瓦尔德发表了关于这种模型的统计方法及其渐近性质的一些理论结果。一般ARMA模型的统计分析研究,则是20世纪60年代后才发展起来的。特别是关于p,q值的估计及其渐近理论,出现得更晚些。除ARMA模型之外,还有其他的模型分析的研究, 其中以线性模型的研究较为成熟,而且都与ARMA模型分析有密切关系。
回归分析如果时间序列x(t)可表示为确定性分量φ(t)与随机性分量ω(t)之和,根据样本值x(1),x(2),…,x(T)来估计φ(t)及分析ω(t)的统计规律,属于时间序列分析中的回归分析问题。它与经典回归分析不同的地方是,ω(t)一般不是独立同分布的,因而在此必须涉及较多的随机过程知识。当φ(t)为有限个已知函数的未知线性组合时,即 ,式中ω(t)是均值为零的平稳序列,α1,α2,…,αs是未知参数,φ1(t),φ2(t),…,φs(t)是已知的函数,上式称为线性回归模型,它的统计分析已被研究得比较深入。前面叙述的降雨量一例,便可用此类模型描述。回归分析的内容包括:当ω(t)的统计规律已知时,对参数α1,α2,…,αs进行估计,预测x(T+l)之值;当ω(t)的统计规律未知时,既要估计上述参数,又要对ω(t)进行统计分析,如谱分析、模型分析等。在这些内容中,一个重要的课题是:在相当广泛的情况下,证明 α1,α2,…,αs的最小二乘估计,与其线性最小方差无偏估计一样,具有相合性和渐近正态分布性质。最小二乘估计姙j(1≤j≤s)不涉及ω(t)的统计相关结构,是由数据x(1),x(2),…,x(T)直接算出,由此还可得
进行时间序列分析中的各种统计分析,以代替对ω(t)的分析。 在理论上也已证明,在适当的条件下,这样的替代具有满意的渐近性质。由于ω(t)的真值不能直接量测,这些理论结果显然有重要的实际意义。这方面的研究仍在不断发展。
时间序列分析中的最优预测、控制与滤波等方面的内容见平稳过程条。近年来多维时间序列分析的研究有所进展,并应用到工业生产自动化及经济分析中。此外非线性模型统计分析及非参数统计分析等方面也逐渐引起人们的注意。