• 谷歌scholor
  • 观点:2693

  • PDF下载:636

月度流量预测的不确定性分析

Majid Dehghan1*, Bahram Saghafian1Firoozeh Rivaz1Ahmad Khodadadi3.

1伊朗德黑兰伊斯兰阿扎德大学科学与研究分部技术与工程系

2Shahid Beheshti大学数学系,伊朗德黑兰

DOI:http://dx.doi.org/10.12944/CWE.9.3.40

河流流量预测是水资源规划和管理的重要内容。本研究采用前馈人工神经网络(FFANN)进行月度流量预测。建模时考虑了三种场景。主成分分析(PCA)用于降低模型架构复杂性和减少输入数据。采用12项统计标准评价模型的性能。为了量化预测的准确性,采用蒙特卡罗模拟进行了不确定性分析。结果表明,该模型总体上能较好地预测月流量时间序列。然而,该模型在极值时被低估了。不确定性分析表明,模型在前两种情景下对月流量时间序列的预测是正确的,而在第三种情景下,大部分预测值超出了上置信区间。

Streaflow;主成分分析,安;不确定性

复制下面引用这篇文章:

刘建军,李建军,李建军,等。长江流域水流量月度预报的不确定性分析。当代世界环境2014;9 (3)DOI:http://dx.doi.org/10.12944/CWE.9.3.40

复制以下内容引用此URL:

刘建军,李建军,李建军,等。长江流域水流量月度预报的不确定性分析。当代世界环境,2014;9(3)。可以从://www.a-i-l-s-a.com/?p=7385


下载文章(pdf)
引用管理器
发布历史


文章发表历史

收到: 2014-09-24
接受: 2014-10-30

介绍

流量预报是可持续发展的一个关键组成部分,并以环境问题为基础。自20世纪中叶以来,它一直是研究人员的一个重要课题。不同的方法,如回归(Sun et al. 2014;Rehman and Saleem, 2014, Dehghani et al. 2014),概念性(Jain and Srinivasulu, 2006;Xu et al. 1996)和intelligent(He et al. 2014;Liu et al. 2014;Sudheer et al. 2014)模型用于河流流量预测。人工智能模型,特别是人工神经网络(ANNs)已在许多研究中应用于河流流量预测。人工神经网络(ANN)是一种非线性黑箱统计方法(Kalteh, 2013)。人工神经网络适用于处理水文过程中普遍存在的内在特征(Fajardo Toro, 2013)。 ANN is appropriate for the problems which the input is high dimensional, data are possibly noisy and not important to know the weights. Literatures in the last two decades show a high interest in using ANN for hydro logical processes, forecasting and different ANN architectures were used for this purpose. Most studies have been done by feed forward error back propagation(Karunanithi et al., 1994; Kisi, 2004). The standard back propagation algorithm (SBPA) has some problems including very low speed training convergence and easy entrapment in a local minimum (Haykin, 1999). The Levenberg-Marquite algorithm proposed as a training function to overcome these problems.

人工神经网络规划中存在的一个问题是由于网络结构复杂,导致网络结构过于庞大。对此,Coulibaly等人(2000)利用停止训练算法(Stop Training Algorithm, STA)解决了这一问题。可以找出导致网络结构简单的几个有效因素。输入选择是人工神经网络实现的关键步骤。缺乏相关的输入妨碍了网络应用程序将输入映射为观察到的流的接近估计。在某种程度上,如果人工神经网络中的权重数大于人工神经网络训练中的样本数,就可能导致“过拟合”(Haykin, 1999)。在输入变量数量较多的情况下,输入变量之间的相关概率增大,人工神经网络很难找到最优模型。因此,如果可能的话,建议减少输入变量,即使这会导致一些信息被省略。主成分分析(PCA)是一种合适的数据约简方法(Dehghani et al. 2014;Noori et al. 2011)。 PCA has been used widely in different environmental issues.

预测与不确定性有关。这意味着预测值不会一直精确地发生,它们会围绕预测值振荡。因此,研究与预测值相关的不确定性是环境过程预测中的一个重要问题。在过去的几十年里,不确定性分析使用了不同的方法(Dehghani et al. 2014;Zhao et al. 2011;Viola et al. 2009)。蒙特卡罗模拟是不确定性分析中最常用的方法之一。不确定性分析和确定置信区间使水资源决策者能够更好地了解未来水资源,并根据这些信息做出决策。

本文在考虑上述解释的基础上,利用人工神经网络对月流量进行了预测。并采用蒙特卡罗模拟法对预测值的不确定性进行了研究。在第2节和第3节中,分别描述了研究领域和方法。模型性能和讨论在第4节中提出,结论在第5节中得出。

研究范围及数据

大卡伦盆地位于伊朗西南部(图1),盆地面积67112公里2位于波斯湾入海口。该盆地生产了伊朗超过25%的地表水资源,并对该地区人类生活的农业、社会和环境方面产生了重大影响。
图1:大卡伦盆地的边界
点击这里查看图

由于该流域为各种用户供水并产生水力发电的高地表水潜力,水文逻辑研究和水流预测对有效的水资源规划和管理至关重要。本研究的重点是大卡伦河内的德兹河子盆地。图2为研究区域及所选区域的水工站网。之所以选择Dez网的支流,是因为一些下游站的数据可能受到上游取水的影响。然而,支流的用水量微不足道。因此,直到Sepiddasht水文计量站的部分德兹河系统被指定为研究区域。
图2:研究区的边界
以及水文观测站的位置

点击这里查看图

本研究共选取了7个水文测量站作为研究对象。参考图2,这些车站是Rahimabad, Dorudtire, Sepiddasht, Chamchit, Moruk, Daretakht和Dorudmarbere。所有的站点都有1955年到2009年的数据,总共有648个月的流量数据。表1为各水文测量站的月流量统计。流量变异系数在1 ~ 1.95之间波动。这是地中海气候盆地中水流的典型特征,使预报成为一项具有挑战性的任务。

表1:所研究水利站的月流量统计

统计数据

Rahimabad

Moruk

Dorodtire

Daretakht

Dorodmarbere

Chamchit

Sepiddasht

马克斯(CMS)

41.86

53.70

156.89

82.16

197.17

76.57

123.68

分钟(CMS)

0.01

0.00

0.37

0.00

0.74

1.05

2.00

意思是(CMS)

5.37

4.39

15.45

3.45

9.21

7.34

18.60

标准偏差

5.38

6.92

19.86

6.72

13.07

7.50

19.26

变异系数

1.00

1.58

1.28

1.95

1.42

1.02

1.04



方法

人工神经网络

人工神经网络的习惯架构由三层神经元组成:输入层、隐藏层和输出层(Haykin, 1999)。一个神经元的响应是基于一个激活函数的所有输入的加权和。本研究采用了前馈网络,因为与其他范例相比,前馈人工神经网络已被证明具有计算优势(Hornik et al., 1989)。通过分裂验证过程,采用反向传播算法对网络进行训练。可用数据分为三组:训练集、验证集和测试集。训练集用于拟合ANN模型权重,验证集用于选择提供最佳泛化水平的模型变量,测试集用于根据剩余数据评估所选模型。2到6个神经元的数量是通过试错法选择的。将所有输入和输出变量标准化为[0.1,0.9]尺度,如下所示(Rajurkar et al., 2004):




其中X是输入变量,X最小值和X马克斯输入变量和X的最小值和最大值是多少n是标准值。

神经网络中待确定的权值的总数为(N)可使 + 1x + (Nx1 + 1)对于一个隐藏层。这基本上解释了神经元层之间的所有连接。隐藏层中神经元的数量增加了需要拟合的连接和权重的数量。这个数字不能无限制地增加,因为可能会出现待拟合的连接数量大于可用于训练的数据对数量的情况。尽管神经网络仍然可以训练,但这种情况在数学上是不确定的。在数学上,确定比可用数据点更多的拟合参数是不可能的。

本研究采用了一种基于单隐层前馈神经网络的模型。采用反向传播(BP)算法对网络进行训练。BP算法本质上是一种最小化网络误差函数的梯度下降技术(Haykin, 1999)。

主成分分析

主成分分析(PCA)是一种识别数据模式的方法。这是一个强大的工具,可以降低数据的高维数,特别是当数据集高度相关时。将输入变量转换为独立的pc,即输入变量的信息在pc中以最小的损失呈现(Helena et al., 2000;Noori et al., 2011)。由下式指定的pc。



在Z表示pc,特征向量与X的关系也是输入变量。这个信息是通过求解方程(3)得到的(Johanson and Wichern,1982)。

| r - I λ | = 0 (3)

式中,I为单位矩阵,R为方差协方差矩阵,为特征值。通过这些特征值,我们可以得到特征向量。Camdevyren等人(2005)、Noori等人(2011)、Helena等人(2000)、Dehghani等人(2014)等人介绍了该方法的细节。

模型评价

由于没有单一的评估标准,应用多标准评估人工神经网络技能是很重要的(Dawson等人,2002;Kumar et al., 2005)。Dawson等人(2007)总结了一些评估统计数据,这些数据可以通过Hydrotest网站(http://www.hydrotest.org.uk)上的基于网络的工具箱Hydrotest来计算。我们采用了12个标准来评估模型的性能。

不确定性分析

为了确定水流预测中的不确定性,Marce等(2004)在Monte-Carlo框架中实现了人工神经网络建模过程。蒙特卡罗模拟包括从随机参数的概率分布中重复生成随机参数,然后计算输出的统计量。本研究采用Bootstrapping进行重采样。输入数据库随机重新采样,不更换1000次,保持校准集(训练集和验证集)与测试集之间的比例。这里报告了估计的95%置信区间,因为这个置信区间比与模型相关的预测范围的其他统计值提供了更多的信息(Noori et al., 2010c)。95%置信区间是通过找到构建分布的第2.5和97.5个百分位数来确定的(Noori et al., 2009)。

结果与讨论

对于流量预测,考虑了三种场景(表2)。在第一种场景中,使用Rahimabad和Moruk的流量作为输入来预测每月的流量。在第二种情况下,使用Sepiddasht站上游的所有水文测量站,Sepiddasht站预测的河流流量。

表2:场景和输入变量

输入

目标站

场景数量

Rahimabab, Moruk

Dorudtire

1

Rahimabad, Moruk, Dorudtire,

Dorudmarbere、Daretakht Chamchit

Sepiddasht

2

个人电脑

Sepiddasht

3.


在第三种场景中,将PCA应用于第二种场景的输入,以降低数据的高维数。结果表明,第一次PC再现了84%的数据方差。因此,在第三个场景中,选择第一台PC作为输入。

对于人工神经网络建模,流流时间序列分为三个部分。最后120个月的河流流量分配用于测试,100个月用于验证,其余数据用于训练,然后将模型应用于时间序列。图3 ~ 5为测试阶段水流的人工神经网络建模。从这些数据可以看出,该模型在试验阶段具有合适的性能,特别是在Dorudtire站。然而,人工神经网络模型低估了,特别是在极端值。

图3:观测和预测的每月流量
第一个场景中测试阶段的时间序列

点击这里查看图

图4:每月观察和预测
流的时间序列在测试阶段
第二个场景

点击这里查看图

图5:每月观察和预测
流的时间序列在测试阶段
第三个场景

点击这里查看图


试验阶段观测值和预测值的均值、最小值和最大值见表3。结果表明,模型在最大值和平均值上被低估,而在最小值上被高估。

表3:试验阶段观测和预测时间序列的月流量统计

预测

观察到的

意思是(cms)

最低(cms)

最大(cms)

意思是(cms)

最低(cms)

最大(cms)

场景数量

12.88

0.62

50.6

9.27

0.4

71.6

1

15.43

2.81

52.28

19.4

2

106.1

2

16.26

8.63

31.31

3.


总体而言,该模型在Dorudtire站表现较好。该模型在所有情况下都能很好地遵循观测到的时间序列模式。这是时间序列建模中最重要的因素之一。为了进行更多的调查,为测试阶段计算了12个统计标准(表4)。粗体和斜体的值显示了更好的性能。
表4:与测试阶段相对应的统计标准
不同情况下的每月流量预报

点击这里查看表格

前七个标准是关于建模误差估计的。基于这些标准,该模型在Dorudtire站表现最佳。对于一个完美的模型,这七个指标应该是零。RAE包括相对于总绝对误差的总绝对误差,如果预测只是观察值的平均值(Dawson et al. 2007)。第一种和第二种场景下的RAE值更好。剩下的四个指标,包括R、IoAd、CE和PI,在其他场景中对于第一个场景具有最佳值。在不同的情况下在0.67和0.92之间波动。然而,R对观察到的和模型led数据集之间的加性和比例差异不敏感,因此即使模型值在幅度和可变性方面与观测值有很大不同,也可以获得高值。因此,为了更好地判断,使用纳什-苏特克利夫系数(CE),它对观察和建模的均值和方差的差异很敏感。PI是持久性指数,与CE非常相似。 IoAd is used to calculate the index of agreement. In overall the model performance is appropriately acceptable in all scenarios.

量化预测精度的一种实用方法是估计预测的置信区间。区间越宽,预报精度越低,反之亦然。通过蒙特卡罗模拟,设置了不同情景下河流流量预测的上、下置信带。95%置信区间的结果如图6至图8所示。


图6:置信区间
第一个场景的流量预测

点击这里查看图

图7:流的置信区间
第二种情况的流量预测

点击这里查看图

图8:流的置信区间
第二种情况的流量预测

点击这里查看图


结果表明,在第一种情况下,所有预测值都在置信区间内。可以看出,在第一种情况下,人工神经网络对月流量的预测效果令人满意。同样,在第二种场景中,所有的预测值都在置信区间内,而在第三种场景中,大量的预测值在置信区间之外。在第三种情况下,75%的预测值超出置信区间,表明该模型在预测流量方面表现不佳。大部分预测值超出了上界,说明该模型不能很好地预测上界。

结论

本文利用人工神经网络对伊朗卡琳盆地3种情景下的月流量进行了预测。并进行了不确定性分析来预测置信区间。结果表明,该模型能够令人满意地预测月流量,尽管在某些情况下模型过高或过低。然而,有一些考虑。根据统计标准,模型在第一种和第二种场景中表现良好,而在第三种场景中表现较差。可以看出,该模型对输入质量敏感,信息越多,性能越好。所以使用pc作为输入,模型会丢失一些信息,模型性能会比其他场景差。反过来,使用PC作为输入降低了模型的复杂性。第一种和第二种情况的差异可能是由于Seppiddasht水度站上游的取水。除了统计准则外,不确定性分析还能很好地评价水流预报。 Monte Carlo simulation which is used in this research is a powerful tool for uncertainty analysis and performed well in the confidence interval prediction.

参考文献
  1. 康德维伦H., Demyr N., Kanik A., Keskyn S.(2005)。主成分分数在多元线性回归模型中用于水库叶绿素a的预测。生态学报,31(1):581-589。
  2. 李建平,李建平,李建平(2000)。基于停止训练方法的人工神经网络日入库流量预测。水文学报,230:244-257。
  3. 陈艳,陈志文,陈志强(2002)。人工神经网络技术在长江流量预报中的应用评价。二聚水分子。地球系统。科学。学报,6:619-626。
  4. Dawson CW, Abrahart RJ,参见LM (2007) Hydrotest:用于水文预测标准化评估的基于网络的评估指标工具箱。环绕。模型。Softw 22:1034 - 1052。
  5. 刘建军,张建军,张建军,张建军。(2014)。基于人工神经网络和蒙特卡罗模拟的径流干旱预报的不确定性分析。Int。j . climatol。中文信息学报,34(3):1169-1180。
  6. 刘建军,刘建军,刘建军,(2014)。基于动态时空模型的月流量预测。环境资源风险评估。, DOI 10.1007/s00477-014-0967-3。
  7. 刘建军,刘建军,刘建军,刘建军(2013)。河流流量预测的混合人工智能模型。应用软计算13:3449-3458。
  8. 海金,S.,(1999)。《神经网络:综合基础》。“2nd编辑,普伦蒂斯霍尔。新泽西州。
  9. 何忠,文霞,刘海,杜杰(2014)。人工神经网络、自适应神经模糊推理系统和支持向量机在半干旱山区河流流量预测中的比较研究。水文学报,509:379-386。
  10. 海伦娜,B.,帕尔多,R.,维加,M.,巴拉多,E.,费尔南德斯,JM。, Fernandez, L.,(2000)。主成分分析在冲积含水层(西班牙Pisuerga河)地下水组成的时间演变。水利水电工程学报(自然科学版),34(3):817 -816。
  11. 霍尼克K,斯廷奇库姆M,怀特H.(1989)。多层前馈网络是通用逼近器。神经网络学报,21(5):359-366。
  12. Jain, A, Srinivasulu, S.基于人工神经网络和概念技术的流线分解模型集成方法。水文学报317(2006)291-306。
  13. Johnson r.a., Wichern D.W.(1982)。应用多元统计分析,普伦蒂斯霍尔。
  14. Kalteh, A.M.(2013)。基于小波变换的人工神经网络和支持向量回归模型的月流量预测。地球科学进展,34(4):1-8。
  15. Karunanithi, N., Grenney, w.j., Whitley, D.和Bovee, K.(1994)。“用于河流流量预测的神经网络。”土木工程计算学报。科学通报,8:201-220。
  16. 基西,O.(2004)。“利用人工神经网络建立河流流量模型。”水文工程学报。生态学报,9(1),60-63。
  17. Kumar D.N, Raju K.S, Sathish T.(2005)。利用递归神经网络预测河流流量。窟。>管理。, 18:143 - 161。
  18. 刘忠,周鹏,陈光,郭亮,(2014)。评价离散小波变换和支持向量回归对日、月流量预报的耦合作用。水文学报,DOI: 10.1016/j.jhydrol.2014.06.050。
  19. 马思R, Comerma M, Garcia JC, Armengol J.(2004)。一种神经模糊建模工具,用于估计随时间变化的人类影响下流域河流养分负荷。湖沼学和海洋学方法。2: 342 - 355。
  20. 刘建军,刘建军,刘建军。(2009)。结果小波变换- anfis和小波变换-神经网络混合预测固体废物产生量的不确定性。专家系统与应用36(6): 9991 - 9999。
  21. A., Ghafari Gousheh M.(2011)。使用PCA、Gamma检验和正向选择技术评估输入变量对支持向量机模型性能的影响,用于每月流量预测。水文学报,41(1):177-189。
  22. Rajurkar, m.p., Kothyari, U.C.和Chaube, U.C.(2004)基于人工神经网络的日降雨量-径流关系建模。j .二聚水分子。, 285, 96-113。
  23. Rehman S.U, Saleem K.(2014)。基于IOHLN和Niño4联合模型的天鹅海岸河流流量预报方案。大气科学学报,35(2):591 - 591。
  24. 孙亚勇,王东,徐旭(2014)。利用高斯过程回归进行月度流量预测。水土保持学报,2016,35(6):591 - 591。
  25. 苏希尔C.h., Maheswaran R., Panigrahi b.k., Mathur S.(2014)。月流量预测的SVM-PSO混合模型。神经网络计算与应用,24(6):1381-1389。
  26. Viola F., Noto, l.v., Cannarozzo, M., La Loggia G.(2009)。使用GLUE方法在短暂集水区进行不确定的日流量预测。地球物理化学,A/B/C, 34(10): 701-706。
  27. 徐,彭译葶。, Seibert, J., Halldin, S., 1996。NOPEX地区区域水平衡模型:月水平衡模型的开发与应用。水文学报,18(5):391 - 396。
  28. 赵涛,蔡晓,杨东(2011)。流量预测不确定性对水库实时运行的影响。水资源科学进展,34(4):495-504。