纳入异常离群数据对设计洪水震级的影响
孟加拉虎Heidarpour1, Bahram Saghafian1*和赛义德·戈利安2
1沙赫鲁德理工大学土木工程系,伊朗沙赫鲁德
DOI:http://dx.doi.org/10.12944/CWE.10.2.38
“离群值”一词通常用来指似乎明显偏离其他数据趋势的单个数据点。异常值分为三种类型:不正确的观测值,与其他最大值基本相同的现象引起的罕见事件,以及由不同现象引起的罕见事件。首先对完整的数据序列(包括异常值)进行洪水频率分析,然后对去除异常值的序列进行洪水频率分析。结果表明,遗漏异常数据对概率分布函数(Log-Pearson III型)没有影响,但设计流量在10000年回归期从3320 (m)减少了60%3./s)至1340 (m)3./ s)。此外,采用美国水资源委员会(WRC)提出的方法和HEC-SSP软件将离群数据与其他系统数据组合,并对统计分布参数进行修正。使用WRC方法,估计万年洪水相当于1907 (m)3./s),将离群值指定为200年回归期,并对Log-Pearson III型分布参数进行修正;这比包含异常值的情况减少了大约43%。
复制下面引用这篇文章:
李建军,李建军,李建军,等。洪水设计震级影响因素分析。当代世界环境2015;10 DOI:http://dx.doi.org/10.12944/CWE.10.2.38
复制以下内容引用此URL:
李建军,李建军,李建军,等。洪水设计震级影响因素分析。生态学报,2015;10(2)。可以从://www.a-i-l-s-a.com?p=797/
文章发表历史
收到: | 2014-11-24 |
---|---|
接受: | 2015-06-14 |
介绍
水工构筑物的设计采用洪水量,水工构筑物受水文事件的影响,考虑构筑物的安全性、使用寿命和可能损坏等因素。这个数量也被称为设计洪水。大坝设计洪水计算是大坝工程研究的重要环节之一。将溃坝造成的损失与大坝建设和优化利用所获得的效益进行比较,表明大坝稳定设计洪水的选择具有很高的敏感性。提出了几种计算设计洪水的方法。最重要的方法是频率分析、区域分析、降雨径流模型、经验关系、洪水包络曲线和利用历史洪水。
大坝溃坝最常见的原因之一被认为是由于洪水超过水库的缓解能力和溢洪道流量而发生的溢流。一些报告表明,41%的大坝溃坝事故是由于大坝溢洪道容量不足造成的(Bouvard 1988)。3.许多其他的报告和文章报道,由于立交桥,大坝溃坝的风险至少为30%;此外,经常有30%到40%的大坝失败是由于立交桥(Hagen 1982)。7总的来说,从1950年到1990年,在100起大坝失败事件中,有40起是由于大坝顶部造成的(ICOLD 1997)。13
大坝施工现场最大洪水记录的统计信息在设计洪水估算中起着决定性的作用。同时,在进行任何形式的计算之前,我们应该对信息的准确性有信心,我们应该仔细确定每个记录数量的重量和价值-作为期望时间范围内的实际尺寸-并尽可能明确其位置。然而,不幸的是,在某些情况下,注册统计的价值和位置被遗忘了;所有信息都被赋予一个相等的值,并且使用通用技术计算具有不同回复期的洪水。因此,所获得的数字(设计洪水)与案例研究流域不一致,为洪水建造大型混凝土结构所承担的成本可以类似于应该为虚构和想象的事故支付的财富溢价。
观测数据可以显著影响设计估计。本研究旨在确定离群数据在设计洪水估算中的作用。因此,利用洪水频率分析进行洪水估计,一次在完整的数据序列上进行,另一次在删除异常值的序列上进行。然后将离群数据与其他系统数据相结合,并对所选分布的统计分布参数进行修正,比较各汛期对应的洪水震级。
材料与方法
案例研究
Tamer流域面积约1531平方公里,位于伊朗里海海岸线东南部。它是Golestan流域的主要分分水岭之一。该地区位于东经55°30′至56°4′,北纬37°24′至37°48′之间。图1为帖木儿流域及其水系图。
|
异常数据
离群数据是与其他数据的趋势明显偏离的单个数据点。它们通常分为三组:1)收集错误和/或数据登记造成的观测2)自然因素造成的观测3)大坝溃坝等非自然因素造成的观测(Transportation 2004)。16高离群洪水和历史洪水都被认为是异常大洪水,前者是在系统记录期间观测到的,后者是在系统记录期间之外观测到的。系统记录可直接用于洪水频率分析。除非能够提供额外的信息,将非系统记录与所有洪峰的人口联系起来,否则无法使用(IACWD 1982)。11
根据美国水资源协会(Water Resources Association of America) 1982年的建议,如果数据的偏度系数大于0.4,则应进行较大值的离群值检验。如果数据的偏度系数小于-0.4,则应对小值进行离群检验,如果偏度系数在-0.4和0.4之间,则应对大值和小值进行离群检验(IACWD 1982)。11虽然已经提出了许多方法来检测异常数据,但没有一种方法被普遍接受(Garcia 2012)。4
在峰值流量被视为离群数据的情况下,应进行必要的测试,以避免由于将数据转换为不同形式或在计算机中传输而在统计表上的第一次计算中可能出现错误。然后,将前者数据与历史数据或邻近区域的数据进行比较。根据美国水资源协会(Water Resources Association of America)的说法,如果现有的数据表明,在很长一段时间内,一个离群值数据可以被接受为最大值数据,那么它就可以被视为历史数据。低于最低阈值的数据应从最大流量数据集中剔除。然后根据剩余数据选择合适的分布(IACWD 1982)。11
洪水频率分析
洪水频率分析是大坝、桥梁、涵洞、供水系统和防洪结构等设施设计的重要工具。这包括水文统计和概率领域的大部分研究活动。水利工程中水工结构规模的大小和工程造价的高低,直接关系到目标洪水的选择。如果所选择的洪水大于平均水平,则所建造的结构将更大,更巨大,更坚固。因此,建设成本将会增加。洪水频率分析的主要目的是获得可测量事件的重现期(事件发生的概率),并估计特定重现期的事件震级通常大于记录事件的长度(Hamed and Rao 1999)7;风筝197713)。在某些水工结构中,估计洪水流量和洪水、强降雨等罕见事件的重现期被认为是最重要的设计因素之一(Hosking和Wallis 1993)。9
频率分析中最重要的因素之一是能否获得长而准确的数据序列。霍斯金和沃利斯(1993);10辛格(1998),15Hamed and Rao (1999),7格里菲斯和斯泰丁格(2007)5深入研究了洪水频率分析,强调特大洪水发生概率是基于有限数据的外推,由于数据序列长度短或数据缺失,传统统计方法对洪水的外推存在较大的不确定性。从小样本洪水数据得出的估计可能与不合理或不现实的因素有关。
正态函数、双参数对数正态、三参数对数正态、Pearson Type III、Log-Pearson Type III (LP-III)、双参数gamma和gumbel是洪水频率分析中使用最广泛的连续概率分布函数,用于寻找洪水事件对应于特定重现期的大小,即发生概率。概率分布函数(PDF)的积分得到累积分布函数(CDF)。
利用矩量法(MOM)和极大似然法(MLM)等方法从现有数据中计算统计分布的参数。矩量法比较简单。但是,结果不太准确,特别是在数据数量较少的情况下。概率分布函数的参数是通过将样本矩(米)到概率分布函数矩。最大似然法更为准确。然而,这是非常耗时和复杂的(Hamed and Rao 1999)。7
采用Kolmogorov-Smirnov和Chi-square等拟合优度检验来判断概率分布模型与观测数据的拟合程度。如果拟合相当可接受,则选择该分布进行进一步分析。可接受分布的排序基于两个统计量,即平均相对偏差(MRD)和均方相对偏差(MSRD),如式1和2所示。MRD和MSRD最小的分布与观测数据的拟合效果最好。
x我代表Ith观测数据,为x的估计值我式中,n表示数据个数,m表示分布参数个数(Adeyemo and Olofintoye 2014)1.
将异常数据与系统数据相结合
为了将上述离群数据与历史洪水数据或其他系统数据进行整合,我们采用了美国水资源委员会提出的方法来修改统计分布的参数,如均值、方差和偏度系数。这些不遵循离群数据的修改使用公式3至6执行
点的经验似然p(i)用威布尔关系修正如下:
式中,w为权重因子,H为历史或异常洪水记录周期(年),S为系统数据记录周期(年),N为总数据记录周期相对于年(N= S+H), k为历史洪水次数,x为流量数据的对数,表示
修正均值δ2为修正方差,为修正偏度系数。在图2中,显示了系统和历史时期的洪水数据状态示例(England Jr et al. 2003)。3.
|
结果与讨论
本文对研究区域出水口塔梅尔水文站的年瞬时最大流量进行了研究。该站位于座标59a -¦29/30.//东经和37度a -¦28/30.//北纬海拔132米。图3为统计年期间Tamer水文站瞬时最大流量值的变化情况。
图3:年最大瞬时时间序列 Tamer水文站的洪峰 点击此处查看图 |
根据离群值试验结果与观测到的最大流量(783 m3./s),其次是230 m /s3./s(2007 - 2008),比值约为3.4,给定站点的最大流量被视为离群数据(Heidarpour et al., 2015)。8表1给出了水文站年瞬时最大洪水数据在考虑全序列和去除离群值后的正对数和自然对数下的统计特性。
表1:塔梅尔水文站年最大洪水资料统计特性
参数 |
所有观测数据 |
除去离群数据后 |
||
问 |
Ln(问) |
问 |
Ln(问) |
|
数据数[N] |
40 |
40 |
39 |
39 |
最低 |
3.04 |
1.11 |
3.04 |
1.11 |
最大 |
783 |
6.66 |
257 |
5.55 |
中位数 |
45.3 |
3.81 |
42 |
3.74 |
的意思是 |
87.19 |
3.69 |
69.35 |
3.62 |
方差 |
17083.98 |
1.826 |
4466.075 |
1.637 |
标准偏差 |
130.706 |
1.3513 |
66.8287 |
1.2791 |
偏差偏态 |
3.942 |
-0.173 |
1.015 |
-0.362 |
偏峰度 |
21.291 |
2.224 |
3.212 |
1.951 |
变异系数[Cv] |
1.5 |
0.366 |
1.06 |
0.354 |
偏态系数(Cs) |
4.255 |
-0.187 |
1.098 |
-0.391 |
峰度系数(Ck) |
24.850 |
2.596 |
3.764 |
2.287 |
|
洪水频率分析中纳入离群数据的影响
在洪水频率分析中,利用完整的数据序列分析了年瞬时最大洪水的第一频率。其次,通过去除异常值进行洪水频率分析,了解异常值在估算不同重现期设计洪水中的作用。为了检验数据质量,使用统一频率分析(Consolidated Frequency Analysis, CFA)软件(Pilon and Harvey 1994)进行了一些统计检验,检验随机性、趋势存在性、数据独立性和同质性。14然后,利用水文频率分析软件(HYFA)进行洪水频率分析。该软件拟合数据与七个频率分布函数。然后,利用矩量法和极大似然法对概率分布参数进行估计。在不同的回收期计算参数。然后,使用拟合优度卡方检验和平均相对偏差(MRD)和均方相对偏差(MSRD)确定合适的分布(Hemmadi et al., 2007)。9
表2:不同回潮期的洪水估计已完成 系列和去除离群数据后(m3/s排放量) 点击这里查看表格 |
|
表3为Tamer水文站年瞬时最大流量不同回复期的频率分析结果。根据这些结果,LP-III分布具有最小的平均相对偏差(MRD)和均方相对偏差(MSRD)值,因此被选为卡方拟合优度检验中可接受的分布中的最佳概率分布。
表3:不同回复期离群数据敏感性分析(放电m3./秒)
离群数据回归周期(年) |
回收期(年) |
||||||
20. |
50 |
One hundred. |
200 |
500 |
1000 |
10000 |
|
50 |
327 |
526 |
717 |
946 |
1314 |
1647 |
3147 |
80 |
300 |
471 |
630 |
816 |
1108 |
2365 |
2469 |
One hundred. |
292 |
454 |
603 |
776 |
1045 |
1279 |
2269 |
150 * |
281 |
431 |
567 |
724 |
964 |
1170 |
2021 |
200 |
275 |
420 |
550 |
699 |
925 |
1119 |
1907 |
250 |
272 |
413 |
540 |
684 |
902 |
1088 |
1840 |
300 |
270 |
409 |
533 |
674 |
887 |
1069 |
1797 |
400 |
267 |
403 |
525 |
662 |
869 |
1044 |
1744 |
500 |
265 |
400 |
520 |
655 |
858 |
1033 |
1713 |
700 |
263 |
396 |
514 |
647 |
846 |
1013 |
1677 |
1000 |
262 |
394 |
510 |
641 |
836 |
1001 |
1651 |
根据结果还可以认为,虽然离群值没有改变所选统计分布的类型,但它影响了洪水估算结果,特别是在不同的回归期。然后,如果将观测到的离群数据与Tamer水文站其他洪水数据取相同值,则可估计出万年重现期的瞬时最大洪水为3320 m3./s使用LP-III分布。如果去除异常值,则万年洪水值将减少到1340 m3./s(大约降低60%)。
频率分析中离群数据与系统数据合并的结果
采用美国陆军工程兵团开发的HEC-SSP 2.0版统计软件,将离群数据与剩余系统数据进行频率分析。该软件的原始版本和试用版于2006年提供。该软件基于美国水资源委员会B17公报,可用于水文数据的统计分析。本研究使用的是2010年推出的新版软件。这个版本增加了一些功能,如洪水流量和降雨频率分析,日流量频率分析,持续时间分析,由两个独立来源组合的图表分析(USACE 2010)。17
考虑到研究区域缺乏历史数据,采用敏感性分析为观察到的异常值指定一个回归期。为此,采用HEC-SSP 2.0软件进行洪水频率分析,考虑异常值的不同重现期。敏感性分析结果和不同回流期的估计流量如表3所示。由上表可知,将200年及以上的回归期应用于离群数据时,这些回归期的洪水值变化不显著。因此,频率分析结果对200年以上回归周期的敏感性较低。结果表明,离群值(783 m)的回归期3./s)可以认为是200年。图4为离群数据分配不同回归期时,设计洪水在1000和10000个回归期时的变化情况。图5显示了在Tamer水文站使用异常值和系统数据的整合,在95%置信区间内观察到的不同回潮期的流量和估计流量。
结论
本文采用完全序列分析和去除异常值分析两种分析方法,研究了异常值对洪水频率分析的影响。结果表明,虽然去除离群数据不影响选择概率分布(LP-III分布)的确定,但去除离群数据可使万年重现期的洪流量减少60%;从3320米3./s至1340米3./ s。在将离群数据与系统数据进行整合时,采用了美国水资源委员会提出的方法以及HEC-SSP 2.0软件。在这种方法中,洪水估计为1907 m3.通过对离群值应用200年的回归期,并对LP-III的分布参数进行校正,得到10000年回归期的p /s。然后,与观测到的异常值与其他洪水相同的情况相比,该值降低了43%。
参考文献
- 王志强,王志强,洪洪志,基于傅立叶近似模型的水库库区水流量估算方法,中国科学院学报一个桥梁之间的概率,集面向数字,和进化计算.[j] .中国科学院学报。
- M大道,设计防洪及防洪工程,关于该问题的一般报告。63:166(1988)。
- England J, Jarrett R., Salas J.,基于数据的基于历史和古洪水数据的矩估计比较,水文杂志。278:172 - 96(2003)。
- Garcia F.,识别数据序列中异常值的测试。里约热内卢天主教大学工业工程系,里约热内卢,巴西L(2012)。
- 陈志强,陈志强,2007。洪水频率分析的演变(英文版)水文工程学报。12(3):283-297(2007)。
- 洪峰。设计洪水与大坝安全的再评价。诉讼, (1982)。
- 刘国强,刘国强。洪水频率分析, CRC出版社(1999)。
- Heidarpour B, Panjalizadeh B, Ekramirad A, Hosseinnezhad A,洪水观测异常值的检测(以Tamer流域为例),研究杂志,近代科学杂志4(3)(2015)(已接受)。
- Hemmadi K, Akhood-Ali AM。Behnia AK。,Arab DR., The Role of Updating Statistical Series in Assessment of Design Flood, a case study of Jareh Storage Dam,伊朗流域管理科学与工程。1(2)(2007)。
- 霍斯金表示:JRM。,Wallis JR., Some statistics useful in regional frequency analysis,水资源研究.29:271 - 81(1983)。
- ,确定洪水频率的指南,公告17B,美国地质调查局,水数据协调办公室,雷斯顿,弗吉尼亚州(1982)。
- ,大坝临时和永久防洪成本,印度大型水坝委员会,中央灌溉和电力委员会(1997)。
- 风筝GW。,水文学中的频率和风险分析(2)《水利学报》(英文版)。
- Pilon P., Harvey K.,综合频率分析(CFA), 3.1版。参考手册。加拿大环境部,渥太华(1994)。
- 辛格,V。水文中基于熵的参数估计.卷30:Springer(1998)。
- 运输部,极端洪水分析指南,土木工程处,埃德蒙顿,阿尔塔(2004)。
- USACE。,HEC-SSPVersion 2.0, Statistical Software Package.水资源研究所,水文工程中心(2010)。