河流流量时间序列建模与预报
Rashmi尼噶的1*, Sohail合杀威杀虫剂2, Sudhir尼噶的1,投资者Pardasani1”栏目,米塔尔1和Ruhi Haque1
1MANIT数学系,博帕尔,462 003印度
2机械工程系,MANIT,博帕尔,462 003印度
DOI:http://dx.doi.org/10.12944/CWE.4.1.11
气候变化、人类对自然水流模式的干预、随意的城市化等都是洪水泛滥的原因,即使开发了如此多的溢流控制结构措施。库尔福河流域位于埃塞俄比亚相对干燥的南部地区,目前仍处于丘陵地形和不透水土壤质地的地理改造中。本研究的重点是模拟洪水发作,以制定洪水管理策略以减少灾害。将自然水文现象和因变量视为随机过程可以更好地表达其复杂性。利用随机ARIMA时间序列模型对库尔福河的月径流进行洪水(最大流量)预报。对季节变化时间序列流量数据的分析表明,高阶ARIMA模型可以对3 ~ 6个月的预报产生良好的结果。
复制以下内容以引用本文:
Nigam R, Bux S, Nigam S, Pardasani K.R, Mittal S.K, Haque R.河流流量的时间序列建模与预报。世界环境研究2009;4 (1):79-87 DOI:http://dx.doi.org/10.12944/CWE.4.1.11
复制以下内容引用此URL:
Nigam R, Bux S, Nigam S, Pardasani K.R, Mittal S.K, Haque R.河流流量的时间序列建模与预报。世界环境学报2009;4(1):79-87。可以从://www.a-i-l-s-a.com/?p=895
文章出版历史
收到: | 2009-03-10 |
---|---|
接受: | 2009-05-03 |
简介
水文信息学关注先进信息技术和统计工具的应用,以更好地理解和管理水文现象。水文现象在本质上是循环和随机的。在水文信息学中,河流被认为是一种基于水的资产,其流动模式在很大程度上是随机的。River既可以被认为是一个具有与流动行为相关的属性的通用对象,也可以被认为是一个具有自身独特特征的特殊对象。河流洪水管理所需的重要信息是关于河流过去和现在的径流,以及覆盖河流集水区的主导降雨数据,再加上有关人类维度、历史、社会学、法律、经济甚至政治方面的派生信息(Patel和Shete, 2007)。
物理模型在估计洪水事件方面是最有效的,因为这种模型内置了物理知识,如泛洪平原的尺寸、气象参数的变化、径流系数、粗糙度值、水头损失等。然而,当需要非常快速的流动模式预测时,例如,在预测情况下,或在运行长时间序列时,或需要蒙特卡罗分析时,那么基于物理的模型是繁琐的(Beven, 2001)。现在有很多这样的情况,时间序列分析被用来预测这样的河流极端事件。时间序列分析允许识别隐藏的确定性行为,从而理解问题中的因果关系(Schwartz和marcus1990)。单变量模型增加了对系统行为的理解。测量值的变化是过去几个月发生的时间过程的冲击(从提供系统动态谢尔常数的预期结果的偏差)的函数。使残差的相关性不超过5%的不显著水平,尽可能规范化残差。因此,拟合模型是更好的选择(Murray和Farber, 1982)。
本文试图用随机时间序列预测方法描述河流洪水的发生情况。特别强调的是准确的洪水预报和警报,以便在必要时有效地管理洪水灾害。用于理解所获取数据的建模形式是时间序列ARIMA建模。对获取和生成的信息进行分析的结果支持对现实世界、河流、河流环境和与之相关的人进行管理的决策。
研究区域和数据
研究了基于数据的随机分析方法在常年中型丘陵河流库尔福河中的适用性。这条河横跨埃塞俄比亚南部的大阿巴亚-查莫盆地。阿巴亚-查莫盆地集水区约16400平方公里,河流排水面积约3500平方公里。降雨模式大多是不确定的,尽管有平均年降雨量,但库尔福河流域经常被淹没。这条河的反应时间根据降雨强度而定,约为6至8小时。
对于洪水预报模型的开发,需要在与重大风险地区相关的每个子流域至少进行一套连续流量测量,以便能够捕捉到极端的洪水流量。此外,应保持关键信息的标准化记录,以促进快速应对洪水。为了简化研究,只选择两个水文变量进行分析。有关降雨的数据是在位于河流1公里范围内的气象站收集的,并在安装在阿巴亚湖附近河流排放点的雨量计上测量了河流流量。图1给出了平均月降水量(MMR)和平均月流量(MMD)时间序列的时间图,以比较的形式显示了平均月降水量(MMR)和平均月流量(MMD)数据集在数量上的一致性。数据范围以自1990年1月起至1998年底的逐月累计和8年的数据计算。
图1显示了数据库的质量和每个变量的独立程度的检验。从这些图中,我们推断数据以一种规范化的方式行为,并且在数据中的分布随时间的推移是一致的,具有循环性质。降雨量与河流量之间的关系是线性的或非常接近于线性的。1996年年底的观测数据有些不一致,径流和降雨在数量上不是同时发生的。确切的原因无法推断,但可能是由于观测错误或大坝水的突然释放。
图一:库佛河的雨量及径流(1990年1月- 1998年12月) 点击这里查看图 |
模型开发方法
实时洪水预报可以使用统计、随机、确定性和软计算技术。当一个现象的发生和结果,如在自然过程中,是随机的或不确定的,这个过程被描述为随机的(Priyan和Dalwadi, 2007)。在水文现象中,降雨是主要的现象,径流是其最重要的相关结果。降雨和径流都是空间和时间的函数,在地理和暂时(和季节)上都有共同的变化。因此,利用历史径流数据的随机建模,可以巧妙地表示和预测同样是降雨和径流的结果的洪水。随机模型可以很好地捕捉自然洪水的突变,但洪水数据的空白影响了预测结果。
按时间顺序观测的降雨和径流构成时间序列。利用Box - Jenkins方法(Box and Jenkin, 1994)可以分析随机时间序列水文现象的内在因果关系。Box- Jenkins方法使用了自回归积分和移动平均(简称ARIMA)建模的概念,其中因变量滞后回归到自身并进行平滑,从而产生ARMA和相关的ARIMA和SARIMA模型(S代表季节性回归时间序列)。这些模型适用于平稳序列,在平稳序列中,均值没有系统变化(即序列已被去训练),方差随时间变化恒定(Kendall and Ord, 1992)。
表1季节arima模型参数值 点击这里查看表格 |
通过估计自相关函数来分析变量的依存度。多党民主运动系列。这些结果在95%置信水平或两倍标准差0.068(使用1/n½,其中n = 84)为观测变量总数。一般来说,非季节性ARIMA模型可以写成
(11B2B². .pBp)dzt= (1 -1B -2²- . .问B问)一个t
其中at表示残差级数,B后移算符定义为BZtZ =t - 1, B²Zt = Z2φ和θ分别表示p阶的自回归过程和q阶的移动平均过程的系数值。当某月的观测zt与前一年同月的观测有一定关系时,季节相关性将方程修改为:
(11B2B2年代..pBps)年代Dzt= (1 -1B年代-2B2 s- . .问BQs)et
其中et为正态随机偏差,季节性s = 12, Θ和Φ给出的项表示相应的Q和p阶的季节移动平均和自回归算子。由于季节性ARIMA方程的et不一定是独立的,因此结合非季节性和季节性方程,我们得到了(p,d, Q) x (p,d, Q)阶的一般乘法季节性ARIMA模型的形式为
p(B年代)p(B)年代Dzt=问(B年代)- - -问(B)t
结果与讨论
模型开发过程
本研究的目的首先是基于Box-Jenkins方法确定一个合适的ARIMA模型。由于降雨和河流径流是一种季节性现象,我们需要确定季节性单变量模型的(p,d,q) x (p,d,q)的顺序,还需要找出最佳拟合季节性的程度,这为随机分量和所考虑的总序列提供了简约的表示。最后,利用时间序列模型参数的最小二乘估计进行河流流量预测。为了识别ARIMA模型参数(p, d, q)和(p, d, q),绘制了不同差分(d=0和d=1)和滞后组合下烟雾天气时间序列的自相关系数(ACC)和部分自相关系数(PAC)。ARIMA模型建立过程如图2所示。绘制了原始数据和差分数据,以检验烟雾时间序列的平稳性。模型参数的辨识主要基于时间序列的ACC和PAC图。库尔福河的径流显示出强烈的季节性模式,在ACC和PACC地块中也可以看到同样的情况,因此流量模式需要一个季节性模式。
图2:河流烟雾波时间序列建模过程 点击这里查看图 |
显著的ACC和PAC图的分析表明烟雾系列的一级非季节性ARMA和三级季节性ARIMA参数化。与95%置信限相比,部分自相关(三个)很少被发现显著。最后选取库尔福河月平均流量的季节性ARIMA预测模型为(p,d,q, p,d,q)S =(1,0,1,3,1,3)12。另一种ARIMA模型在不同的参数值下的预测效果并不理想。表1给出了季节性和非季节性情况下各种AR和MA参数的取值,并给出了相应的系数标准差(SE)、t和p值。较小的SE系数和p值对应的t统计量表明了系数估计的显著性和准确性。
图3:实际和模拟的平均月流量 点击这里查看图 |
将经过适当变换的数据拟合到时间序列模型中是通过获得参数的最小二乘估计来完成的。从单变量过程中的残差用于最终选择完整的动态模型。对于模型拟合的每个迭代/阶段,模型充分性的标准是残差应该是独立的(即不存在或可忽略的自相关),模型具有简约性(参数数量最少)。残差也应该呈现对称分布(例如正态分布)(Murray等,1982年)。拟合的自回归参数的负值说明时间序列变量之间以quash方式相关,意味着它们的作用是降低流量值。
图4拟合arima模型的残差分析 点击这里查看图 |
天气预报
在建立可靠和稳健的分析的过程中,通常会产生预测不足的极端河流流量模型。这是考虑到计算建模仅限于理论分析有效和有足够的数据可供适当校准和验证的情况。以1997年1月为起点,预测了12个月的月径流量。从图3中可以明显看出,12个月的预报结果与实际河流流量相当接近,并遵循平均值。即使在1997年10月惊人的峰值情况下,这些预报在捕捉径流模式方面也是相当公平的。预测误差均落在零均值两侧,预测值呈线性增加趋势。
图5:拟合arima模型的散射分析 点击这里查看图 |
预测评估
评价模型结果的性能有两种方法,一种是使用已建立的统计公式,另一种是通过应用数据本身即残差分析的随机方法。后者的重要性是合理的,因为它更强调判断数据的内在特征。随机方法的主要优点是可以用与建立模型相同的方法来评估模型的性能,并且可以很容易地发现模型制定中的任何差异,从而使建模者能够立即做出改进模型的决策。前者适用于所有与自然过程有关的模型,在文献中有充分的解释。
表2:河流径流预报的统计评价 点击这里查看表格 |
初步统计评估
修正Box-Pierce (Ljung-Box)卡方统计量、t检验和对模型预测值的结果如下: |
||||
滞后 |
12 |
24 |
36 |
48 |
卡方 |
10.4 |
24.9 |
42.2 |
56.3 |
自由度 |
3. |
15 |
27 |
39 |
假定值 |
0.015 |
0.052 |
0.032 |
0.036 |
拟合假设的准确性由滞后度和自由度(DF)对应的卡方值来判断,p值越小则表示模型拟合的充分性越好。
随机评价(残差分析)
残差(观测值与预测值/拟合值之间的差值)表示未被拟合模型解释的那部分观测值。在拟合模型之后,使用五组残差图进行残差分析:
- 异常的概率图。
- 残差与拟合值,
- 残差与数据顺序的关系
- 残差的直方图
- 残差与预测因子(烟雾时间序列的ACF和PACF)的比较。
一个拟合良好的时间序列模型由正态分布但不变的残差表示,它不表现出任何模式(趋势、季节性、循环等)作为响应变量的函数。径流数据的残差分析如图4所示
- 残差直方图清楚地显示,大部分残差都集中在一个很小的零范围内。很大一部分残差是负的,并且在一个狭窄的范围内,表明模型适合拖动数据的最优过滤。
- 残差的正态概率图也证实了残差在±1.5之间的集中趋势,即95%以上的残差是正态分布且为常数,即它们不作为响应变量的函数表现出趋势。
- 残差与数据顺序的关系显示,在50次观测之前,大多数残差值都在±5%以内。
- 残差与拟合值的曲线表明,约99%的残差在±5%范围内,残差的范围位于拟合值的10以内。
对于最佳拟合时间序列模型,残差应该是不显著的,而且它们的自相关性应该在95%置信限内较弱。残差的自相关和部分自相关图清楚地表明,在滞后12之前残差不存在显性ACF和PACF,即残差的ACF和PACF不显著,证实了拟合模型的适当性。残差分析表明残差序列表现为白噪声序列,拟合模型在观测范围内表现良好。
综合统计评价
模型评价分析从单因素分析开始。观测数据和模拟数据的标准差和偏度的定量接近输出预测模型预测的初步价值。配对观察和预测之间的散点图(图5)揭示了模型过度或不足预测的大小和范围。
在水文研究中,对模型估计或预测与成对匹配的观测结果进行统计比较仍然是评估模型性能的最基本手段之一。Hanna和Chang(2004)和ASTM(2000)提出了一些综合统计模型性能度量,其中包括分数偏倚(FB)、几何平均偏倚(MG)、归一化均方误差(NMSE)、几何方差(VG)、相关系数(R)、一致性指数和预测在两个观测值的一个因子内的比例(FAC2)。关于这个问题的详细讨论可以在Nigam网站上查阅等,(2008)。平均误差或平均偏差是判断模型预测能力的基础。误差之间的一般关系为MBE≤MAE≤RMSE。
根据Oreskes等人(1994)的观点,不可能对自然系统的数学模型进行评估(验证和验证),因为自然系统从来不是封闭的,而且模型解总是非唯一的。这一过程的随机性质导致了某种不可减少的固有不确定性。因此,模型只能通过证明几组观测和预测之间的良好一致来确认或评估。
表2给出了两种情况下这些参数的数值,一种是真实预测,另一种是在因子2以内的均匀预测。这些标准提供了更多关于模型模拟中固有的系统误差和动态误差的信息。一个完美的模型应该有MG, VG, R和FAC2=1.0;FB和NMSE=0.0。修正的性能值可以归因于隐含的平均预测(Boyleet al。, 2000)。
结论
一阶自回归参数表明随机分量具有相当大的可变性和依赖性;对于最小的集水区,一阶参数的支配性是最高的。另一方面,高阶持久性的值表明,随机分量对过去事件的依赖程度相当一致。结果表明:近6个月径流模拟值与实测值吻合较好。前三个月的模拟值与实际值非常接近,且有过度预测的倾向,这是水文模型的理想结果。
从第三个月到第六个月的三个模拟值的预测与观测到的实际径流模式一致,因此可以认为是肯定的模型贡献。6个月后,模拟值的模式可以捕捉峰值流量和过去流量的模式。然而,模型预测的定量结果是不一致的,由于预测不足的性质,不能用于预测目的。虽然残差研究在很大程度上证实了模型对12个月前预测的适用性,但考虑到预测值的实际要求,模型只能被认为是6个月前预测的公平。
结果表明,ARIMA模型是一种适合于水文数据建模的方法,这些数据往往表现出与时间的自相关性,需要对潜在动态进行适当的解释,而简单的统计预测方法如回归分析等无法做到这一点。Box-Jenkins方法考虑了变量之间的自相关性以及变量之间的滞后关系。如果我们在MMD序列中也加入降雨数据的影响,即多元方法,这将有助于在时间序列分析中获得一个可靠的因果关系假设。
参考文献
- ASTM,“大气弥散模型性能统计评价标准指南”,D6589,美国测试与材料学会,Conshohocken, PA 19428-2959 (2000)
- 贝文,j.k.。”降雨径流模型《入门》,约翰·威利父子有限公司,奇切斯特,319(2001)。
- Box, G.E.P, Jenkins, g.m.,和Reinsel, g.c.,“时间序列分析,预测和控制”,第三版,Prentice Hall, Englewood Cliffs(1994)。
- Boyle, d.p., Gupta, h.v.和Sorooshian, S.,“改进水文模型的校准:结合手动和自动方法的优点”,水资源,地理学报,2000 36(12):3663-3674。
- 张建昌,“空气质量模型性能评价”。杂志气象学与大气物理学”(2004)87:167 - 196。
- Kendall, M.和Ord, J.K,“时间序列,国际预测杂志,”(1992)4:532-533
- Legates, D. R.和mcabe Jr., G. J.“在水文和水文气候模型验证中评价拟合优度的使用”,水资源,(1999) 35(1): 233-241。
- Murray, l.c.和Farber, r.j.,“历史能见度数据库的时间序列分析”,大气环境,(1982) 16 (10):2299 - 2308。
- Nigam, S., Kulshrestha, M., Mittal, S.,和Singh, K.,“拥挤交通条件下空气污染物的计算模型”,缓解发展中国家混合交通城市街道拥堵的最佳实践国际会议,金奈IIT,联合出版社ppt . Ltd.,印度,(2008)389-400。
- Patel, n.r., Shete, D.T.,“印度北古吉拉特地区萨巴尔干塔地区连续日降雨数据的概率分布分析”,全国水利与水资源会议,西南理工大学,印度,(2007)86-93。
- Priyan, K., Dalwadi, H.J,“水文数据的统计分析:对meghal河流域的研究”,全国水利与水资源会议,苏拉特,精英出版社出版,印度,(2007)16-23。
- 施瓦茨,J.和马库斯,A.,《伦敦的死亡率和空气污染:时间序列分析》,美国流行病学杂志,105年(1990年):1273 - 1281。
- Willmot, C.J,“模型评估和比较的统计”,杂志地球物理学研究中,(1985) 90 (5): 8995 - 9005