日尺度地下水水位!全国11897个地下水动态监测站点2005-2021年日尺度地下水水位(地下水埋深)(EXCEL格式)数据

前言:

地下水水位数据是水文分析与管理决策的"底盘":补给---径流---排泄判别、含水层动态评价、超采预警与生态修复成效核验,都离不开连续、可比的水位序列。但现实中,高质量水位往往分散在年鉴、报告或扫描 PDF 里,既难批量获取,也难直接用于统计建模。把 PDF 中的水位表可靠地结构化为 Excel/数据库,等于把"可读资料"变成"可算数据",才能开展跨年对比、区域空间分析、异常识别与成果复核,并显著降低重复整理的时间成本。

数据介绍

《全国地质环境监测地下水位年鉴》汇集了度国家地下水监测工程水位监测成果,覆盖10000多个国家级监测点。年鉴按行政区划顺序编排,监测点基本信息包括统一编号、监测点位置、地面高程、监测深度(水层组顶/底板埋深)、地下水资源分区、含水介质与埋藏条件等,为开展区域地下水动态评价与对比分析提供了权威底表。监测点统一编号为12位数字:前6位对应GB/T 2260---2007行政区划代码(省、市、县),第7位标识监测大类(2为地下水),第8位为站点级别(1国家级等),第9---12位为省内监测井序号。水位以"水位标高(米)"表示;监测数据来源于自动化设备小时级采集传输,受篇幅限制,出版时采用"每5日1条"的展示方式,并给出月平均、最大、最小及水位变幅等统计指标;2月28日数据并入30日并以"*"标注。地面高程采用1985年黄海高程系,少数测流站监测深度为空。需要注意的是:早期(2005---2017)年鉴多为约千个站点规模,统计指标以"埋深"为主;自2018年起站点数量跃升至万点量级,且统一编号编码体系与记录口径发生调整,2018---2021年主要以"水位标高"呈现,更利于跨区对比与与地形/高程体系衔接。年鉴强调数据整编的长期性与复杂性,并提示四舍五入保留两位小数可能导致变幅出现0.01 m级差异。

数据获取:点击链接直达

数据说明

【属性信息】

  • 统一编号:地下水动态监测站点统一编码

  • 位置:监测站点地址

  • 地下水水力类型:又称为含水介质及埋藏条件

  • 监测深度:监测水位位置埋深

  • 水文地质单元:有的年份pdf名称为地下水资源分区

  • 日期:日尺度(2005-2017年日期格式不固定有的是每一天都有,有的是每5日记录一次,另外原始数据部分表格部分天可能存在不全,2018-2021年则是每5天记录一次)

  • 地下水埋深:2005-2017以地下水埋深记录,2018-2021年以地下水水位记录

  • 月平均埋深:该月该站点地下水平均埋深

  • 月最大埋深:该月该站点地下水最大埋深

  • 月最小埋深:该月该站点地下水最小埋深

  • 水位变幅:该月水位变动幅度

【数据信息】

  • 数据时间:2005-2021年

  • 站点数量:2005-2017年每年站点个数在900-1000之间,2018-2021在1万个左右

  • 数据格式:excel表格

  • 站点坐标:通过高德反查及位置纠偏获得每个站点的经纬度坐标

  • 坐标系:WGS84

  • 数据单位:m(米)

  • 数据提示:本人全部将数据进行反查,并对数据进行修复,所有数据均尊重原始书本记录,有时发现书本可能记录错误,也已经在备注中说明,均可自行查看是否合理。

处理说明

1、年鉴很难"直接用"

年鉴里的水位附表看上去是表格,但对程序而言通常是两种情况:

  • 扫描图:只能 OCR

  • 看似可复制的文本表格:复制出来也会列错位、换行断裂、小数点/负号混乱

  • 更关键的是:OCR 的输出不是表格,是一堆文字框(每个框有坐标+文字)。你要做的是把这些框重新拼成"行-列-单元格"。

2、页面不是一种版式,而是一堆"变体"

坑 A:有的页倾斜、有的页反转(180°)

  • 年鉴扫描质量不完全一致:个别页轻微倾斜,甚至出现整页倒置。

  • 我做了一个"关键词命中"判断:如果识别出的文本里关键字命中很少,就再把页面旋转 180° 重新 OCR,谁命中高用谁。

坑 B:同一页可能有多张表(多个监测点)

  • 水位数据页经常"一个页面包含多个监测点表格"。

  • 所以不能只找一次表头,要在同一页里找多个 1--12 月表头,按表头分块提取。

3、"识别过了"与"识别少了"

坑 C:表头容易"识别过了",把别的格子内容当成月份或列内容

  • 表头附近往往有其他数字(页眉、统计字样、表格右侧说明),OCR 可能把这些数字混进来,导致列中心错位,后面整表都串列。

  • 我的策略是两步:表头只认 1--12 的数字

  • 用已识别的月份做线性拟合(1--12 的 x 坐标应近似等距),把缺的月份中心补出来,得到"12 列的列中心线"。

  • 这样哪怕 OCR 只识别出 1、2、3、6、8,也能推断出其余月份列的位置,避免整表漂移。

坑 D:月份容易识别少(特别是小字、贴线、扫描糊)

  • 表头"11、12"最容易少一笔变成"1/2",或者干脆丢失。

  • 所以我不强依赖"必须识别到 12 个月",而是用拟合补齐;但同时也会做一个判断:若有效月份过少,则触发兜底方案(见后文网格裁剪)。

4、四位数的噩梦:

特别对 4 位数的,因为单元格之间间距小,很容易把别的识别过来",这确实是地下水位年鉴里最常见的灾难现场之一。典型症状包括:

  • 1416.98 被识别成 416.98(漏千位)

  • 1416.98 被拆成两段:141 + 6.98(碎片化)

  • 左右格子数字挤在一起,OCR 把边界看错,"把别的格子识别过来"(串格)

  • 我的做法是"先归位、再拼接、再纠错":

  • 先按列中心最近邻把每个文字框分到某个月份列

  • 同一个月份列里,按 x 从左到右拼接碎片,得到候选字符串

  • 对候选字符串做数值恢复(修小数点、修千位、修/10 等)

5、负号经常漏:不处理会把埋深/水位方向搞反

对细小的负号特别不稳定,尤其是:负号很短、负号贴着表格线、字体细、扫描糊

  • 我做了两层处理:清洗阶段统一负号字符

  • 把 --- − 等都归一到 -序列层面的异常检测

  • 同一监测点的时间序列,如果出现"孤立的符号反转",且改符号后能显著贴近前后邻值,则标记"疑似符号异常",并在非常明确时做自动修复(同时写入备注,保证可追溯)。

6、统一编号容易少位数

统一编号是两张表的"主键"。但 OCR 对长数字同样不友好:少识别一位、两位、前导零丢失、甚至被 Excel 自动转成科学计数法

  • 我的处理方式:

  • 编号字段只提取数字

  • 统一规范为固定长度(如取末 12 位,不足则按规则补齐/保留)

  • 在水位页解析到的编号,如果可疑(位数不够/不稳定),就用"监测点列表页"里提取出的编号库去做反查匹配(最稳的方式是:编号+位置文本相互校验)

  • 最终输出 Excel 时,我还强制把"统一编号"这一列写成文本格式,避免 Excel 自动变形。

7、漏掉某一页、某一个表格

年鉴这种超长 PDF,其中2018-2021年每一本都超过3000页,最要命的是:你以为跑完了,实际漏了几页或漏了页内某个表。

  • 我做了三件事降低漏提风险:进度文件 progress.json

  • 只有当该页数据已成功写入缓存 CSV 后,才记录为"已处理",断点续跑不会误跳缓存 CSV 追加写入

  • 运行中不频繁写 Excel,避免 Excel 被占用导致数据没落盘页内多表头检测

  • 同页多张水位表时,找多个表头并分块提取,避免"只提第一张表"

  • 此外,遇到"页面倾斜导致表头没识别出来"的情况,我倾向于:宁可不写进度,让后续人工抽查或二次跑能重新捞这页,而不是把它标记为完成。

8、月统计(平均/最大/最小/变幅),做一致性校验

年鉴水位表通常在日值下方还有 4 行月统计。它的难点是:字号更小、更贴线、容易混入"年统计"一行、很容易错位(把年统计数字当成月统计)

  • 行识别(优先)在最后一个日值行之后,找"在 12 个月区域内数字密度很高"的 4 行,分别对应平均/最大/最小/变幅。
  • 提取后不做"反算改值",只做一致性检查并写备注,例如:

  • 月最大 < 月最小(疑似错位)

  • 变幅与(最大-最小)明显不一致

  • 变幅过大(超过经验阈值)

  • 月平均不在[min,max]附近

  • 这样后续使用者能快速定位"需要人工复核"的月份。

9、地址到坐标:让监测点能"投点",并给坐标可靠性打分

年鉴站点信息一般都给"监测点位置"(文字地址),但经纬度不一定完整、也不一定适合直接 GIS 使用。为了让点位更好用,我做了地址地理编码,并且把"可靠性"当成一个必须输出的指标。

用高德地理编码 + 反查校验

  • 流程大致是:

  • 用地址调用高德地理编码得到坐标(高德返回一般为 GCJ-02,"火星坐标")再用该坐标做逆地理编码,得到返回的省/市/区县/乡镇/街道等结构化信息,用逆地理结果去和原始地址文本做一致性校验,并打分

  • 地址可靠性打分:省/市/县/乡镇逐级给分

  • 我做的打分逻辑比较"地质项目化",核心是:行政层级越匹配越可信。

  • GCJ-02 → WGS84:把坐标纠偏回 GIS 常用坐标系

  • 高德坐标是 GCJ-02,如果要和常见底图、GPS、以及很多地学数据统一,一般需要转 WGS84。我在落库时把高德坐标做了 GCJ-02 转 WGS84 的纠偏,保证投点不会整体偏移。

仅此记录我做数据的过程

数据展示

▲全国地下水监测站点点位分布图

▲部分监测站点位表格展示

▲某一个站点(PDF)具体展示

▲某一个监测站点识别的excel数据(完美匹配)

▲监测站点所有年份统计(部分站点年份仅仅1年)

▲北京市东城区2005-2021年水位变化

▲每个省每个市的站点数据汇总

数据引用

数据引用:《中国地质环境监测地下水位年鉴》

相关推荐
2401_858936882 小时前
深入浅出 TCP 通信:从基础到并发服务器实现
服务器·网络·tcp/ip
_DoubleL2 小时前
Volta启动项目自动切换Node版本
前端·node.js
鲨辣椒100862 小时前
TCP连接有多函数接口阻塞问题???——TCP并发服务器的实现
服务器·网络协议·tcp/ip
风中凌乱2 小时前
linux服务器安装部署mayfly-go
linux·服务器·golang
阿里巴巴终端技术2 小时前
[第 20 届 D2 倒计时] 7 大专场演讲、44 个精彩话题、D2 之夜畅聊 AI + 终端的发展前景
前端·人工智能·程序员
进击的雷神2 小时前
前端路由动态渲染、JSON内嵌HTML清洗、展位信息数组化、分页参数固定化——尼日利亚展会爬虫四大技术难关攻克纪实
前端·爬虫·python·json
2401_858936882 小时前
深入理解 TCP 并发服务器:从 IO 模型到多路复用实现
服务器·tcp/ip·php
文心快码BaiduComate2 小时前
Comate 4.0的自我进化:后端“0帧起手”写前端、自己修自己!
前端·后端·架构
cipher2 小时前
Web3全栈学习与实战项目
前端·后端·区块链