洪水灾害的数据分析与预测

洪水是暴雨、急剧融冰化雪、风暴潮等自然因素引起的江河湖泊水量迅速增加,或者水位迅猛上涨的一种自然现象,是自然灾害。洪水又称大水,是河流、海洋、湖泊等水体上涨超过一定水位,威胁有关地区的安全,甚至造成灾害的水流。洪水一词,在中国出自先秦《尚书·尧典》。从那时起,四千多年中有过很多次水灾记载,欧洲最早的洪水记载也远在公元前1450年。在西亚的底格里斯-幼发拉底河以及非洲的尼罗河关于洪水的记载,则可追溯到公元前40世纪。2023 年6月24日8时至25日8时,中国15条河流发生超警洪水。2023年,全球洪水等造成了数十亿美元的经济损失。

洪水的频率和严重程度与人口增长趋势相当一致。迅猛的人口增长,扩大耕地,围湖造田,乱砍滥伐等人为破坏不断地改变着地表状态,改变了汇流条件,加剧了洪灾程度。在降水多的年份,洪水是否造成灾害,以及洪水灾害的大小,也离不开人为因素,长期以来人为的森林破坏是其重要原因。长江上游乱砍滥伐的恶果是惊人的水土流失。现已达35万平方千米,每年土壤浸融量达25亿吨。河流、湖泊、水库淤积的泥沙量达20亿吨。仅四川一省一年流入长江各支流的泥沙,如叠成宽高各1米的堤,可以围绕地球赤道16圈。我国第一大淡水湖洞庭湖每年沉积的泥沙达1亿多吨,有专家惊呼:"这样下去,要不了50年,洞庭湖将从地球上消失!"长江之险,险在荆江,由于泥沙俱下,如今荆江段河床比江外地面高出十多米,成了除黄河之外名副其实的地上河。对森林的肆意砍伐不仅危害自己,而且祸及子孙后代,世界上许多地方,如美索不达米亚、小亚细亚、阿尔卑斯山南坡等由于过度砍伐森林,最后都变成了不毛之地。

附件train.csv 中提供了超过100万的洪水数据,其中包含洪水事件的id、季风强度、地形排水、河流管理、森林砍伐、城市化、气候变化、大坝质量、淤积、农业实践、侵蚀、无效防灾、排水系统、海岸脆弱性、滑坡、流域、基础设施恶化、人口得分、湿地损失、规划不足、政策因素和发生洪水的概率。

附件test.csv 中包含了超过70万的洪水数据,其中包含洪水事件的id和上述20个指标得分,缺少发生洪水的概率。附件submit.csv中包含test.csv中的洪水事件的id,缺少发生洪水的概率

请你们的团队通过数学建模和数据分析的方法,预测发生洪水灾害的概率,

解决以下问题:

问题一

请分析附件train.csv中的数据,分析并可视化上述20个指标中,哪些指标与洪水的发生有着密切的关联?哪些指标与洪水发生的相关性不大?并分析可能的原因,然后针对洪水的提前预防,提出你们合理的建议和措施。

思路:关联性就是相关性,重要性,主成成分分析。数据要做归一化处理等基本数据处理要注意。

问题二

问题2. 将附件train.csv 中洪水发生的概率聚类成不同类别,分析具有高、中、低风险的洪水事件的指标特征。然后,选取合适的指标,计算不同指标的权重,建立发生洪水不同风险的预警评价模型,最后进行模型的灵敏度分析

思路:kmeans聚类数量设置为3。多元回归这种就可以得到权重,相当于得到不同指标的概率,选取概率比较高的指标做模型。

问题三

问题3. 基于问题1中指标分析的结果,请建立洪水发生概率的预测模型,从20个指标中选取合适指标,预测洪水发生的概率,并验证你们预测模型的准确性。如果仅用5个关键指标,如何调整改进你们的洪水发生概率的预测模型?

筛选相关性比较高的指标与洪水概率这个指标一起建立预测模型。除了用相关性,重要性,还可以用主成成分分析筛选指标(不要超过五个)。筛选出指标后,建立一个机器学习预测模型(不需要深度学习,不需要时间序列),训练,测试(得到准确率,F1值等)。仅用五个关键指标,主要在于选择权重比较大的,例如主成成分分析,就要筛选主要几个指标加起来权重和大于90%才是比较合适的。(例如 10% 20% 30% 40%权重指标,筛选的就是20% 30% 40%对应的指标)。所以筛选好指标很重要,避免丢失重要信息,否则模型失去了建立的意义。

问题四

问题4. 基于问题2中建立的洪水发生概率的预测模型,预测附件test.csv中所有事件发生洪水的概率,并将预测结果填入附件submit.csv中。然后绘制这74多万件发生洪水的概率的直方图和折线图,分析此结果的分布是否服从正态分布。

使用问题二训练好的模型(save模型),预测test.csv数据(load模型),顺便结果填写到submit.csv中。然后呢就是一个可视化,然后判断正态分布。

附件:

  1. train.csv
  2. test.csv
  3. submit.csv

推荐工具

jupyter,python语言

数学建模比赛编程助手:GPT

视频讲解

B站讲解

相关推荐
云天徽上1 小时前
【数据可视化】全国星巴克门店可视化
人工智能·机器学习·信息可视化·数据挖掘·数据分析
大嘴吧Lucy1 小时前
大模型 | AI驱动的数据分析:利用自然语言实现数据查询到可视化呈现
人工智能·信息可视化·数据分析
艾思科蓝 AiScholar1 小时前
【连续多届EI稳定收录&出版级别高&高录用快检索】第五届机械设计与仿真国际学术会议(MDS 2025)
人工智能·数学建模·自然语言处理·系统架构·机器人·软件工程·拓扑学
大乔乔布斯2 小时前
数据挖掘常用算法模型简介
决策树·数据挖掘·线性回归
周杰伦_Jay3 小时前
简洁明了:介绍大模型的基本概念(大模型和小模型、模型分类、发展历程、泛化和微调)
人工智能·算法·机器学习·生成对抗网络·分类·数据挖掘·transformer
胡萝卜不甜5 小时前
数学建模论文通用模板(细节方法二)
数学建模
浏览器爱好者18 小时前
如何在Python中进行数据分析?
开发语言·python·数据分析
金融OG1 天前
99.8 金融难点通俗解释:净资产收益率(ROE)
大数据·python·线性代数·机器学习·数学建模·金融·矩阵
希艾席蒂恩1 天前
专业数据分析不止于Tableau,四款小众报表工具解析
大数据·信息可视化·数据分析·数据可视化·报表工具
spssau1 天前
2025美赛倒计时,数学建模五类模型40+常用算法及算法手册汇总
算法·数学建模·数据分析·spssau