拒绝宕机!用 Python 优雅榨干百万级 GIS 点矢量的裁剪极限

拒绝宕机!用 Python 优雅榨干百万级 GIS 点矢量的裁剪极限

在 GIS 圈子里混,谁还没被超大数据集毒打过几次?

最近手里塞进来一堆大活儿------140 万+ 行的 CSV 坐标数据。要求很简单:把经纬度转成点矢量,然后拿个边界面给它裁了。

本来以为是个常规操作,结果一导入 ArcGIS/QGIS,好家伙,进度条直接卡死,电脑风扇开始疯狂蹦迪,最后反手送我一个 Memory Error(内存溢出)。

传统工具既然遭不住,那就只能祭出大杀器 Python 了。今天分享一套我刚调通的自动化脚本。靠着 Pandas + GeoPandas 这套组合拳,不仅把内存拉得极低,而且运行速度飞快。


🛠️ 核心避坑指南(关键代码拆解)

为了不让电脑在处理这 140 万数据时原地升天,我在代码里埋了几个关键的"保命"操作:

1. 化整为零:分块读取(Chunking)

别指望能一口气把几 GB 的 CSV 全吞进内存。脚本里最核心的思路就是设置 chunksize,每次只读 10 万行,像吃奥利奥一样,一口一口啃完。

python 复制代码
# 开启分块迭代,140万数据拆成14次吃完
chunk_iter = pd.read_csv(
    csv_path,
    chunksize=CHUNK_SIZE,  # CHUNK_SIZE 设为了 100,000
    low_memory=False
)
for chunk_id, chunk in enumerate(chunk_iter):
    # 局部战场,一次只处理这10万条

2. 暴力清洗:别让脏数据报了错

从各种系统里导出的文本坐标,经常夹杂着空值(NaN)或者奇怪的空格、特殊字符。如果不清洗就直接去构建点,代码一秒钟报错给你看。

这里我用了两道防火墙:先删空值,再用 pd.to_numeric 强转数值,转失败的变空值,最后再删一次。

python 复制代码
# 保证经纬度列干干净净,全是纯数字
chunk = chunk.dropna(subset=[X_FIELD, Y_FIELD])
chunk[X_FIELD] = pd.to_numeric(chunk[X_FIELD], errors="coerce")
chunk[Y_FIELD] = pd.to_numeric(chunk[Y_FIELD], errors="coerce")
chunk = chunk.dropna(subset=[X_FIELD, Y_FIELD])

3. 内存流裁剪:不等写入,直接在内存里 Clip

利用 GeoPandas 的 points_from_xy 配合底层的 C 语言加速,把坐标秒变几何对象(Shapely Point)。接着不需要存盘,直接在内存里把这个分块和裁剪边界进行空间相交计算:

python 复制代码
# 内存里快速捏出点要素,并执行空间裁剪
geometry = gpd.points_from_xy(chunk[X_FIELD], chunk[Y_FIELD])
gdf = gpd.GeoDataFrame(chunk, geometry=geometry, crs=CRS)

gdf_clip = gpd.clip(gdf, clip_gdf)

4. 卸磨杀驴:主动召唤垃圾回收

Python 的自动内存管理有时候比较"迟钝",分块循环一多,内存还是会像滚雪球一样涨上来。所以,处理完一块就得立刻用 del 把变量扬了,再用 gc.collect() 强行把内存抠出来。

python 复制代码
# 这一块搞定了,立马给内存减负
del chunk, gdf, gdf_clip
gc.collect()

⚠️ 避坑铁律:别再抱着用 Shapefile 的幻想了!

老一辈 GIS 人习惯开口闭口就是 .shp,但在百万级数据面前,Shapefile 就是个弟弟:

  1. 单个 .shp 文件大小卡死在 2GB,140万数据带点属性分分钟写爆。
  2. 属性表字段名最多 10 个字符,长一点的字段直接给你截成乱码。

所以,听哥一句劝,脚本里果断采用现代化的 GeoPackage (.gpkg) 格式。单文件存储、不限大小、支持空间索引,读写性能甩 shp 几条街。


💻 拿去即用的完整脱敏脚本

路径和敏感字段我已经全部做好了脱敏处理(替换成了通用的 ./datalongitude/latitude)。大家copy过去之后,只需要在参数配置中心改成你自己的路径,就能直接跑:

python 复制代码
# -*- coding: utf-8 -*-
"""
功能:
1. 批量读取海量 CSV 坐标表
2. 根据指定的 X、Y 字段批量生成点矢量
3. 自动匹配地理坐标系(如 WGS 1984)
4. 基于空间边界(如 File Geodatabase 中的面图层)进行精准裁剪
5. 针对 140万+ 超大数据集进行了内存深度优化

依赖安装:
pip install pandas geopandas shapely pyogrio fiona
"""

import os
import gc
import glob
import pandas as pd
import geopandas as gpd

# =========================================================
# ⚙️ 参数配置中心
# =========================================================

# 1. 输入数据配置
CSV_FOLDER = r"./data/csv_inputs"        # 存放待处理 CSV 文件的文件夹
X_FIELD = "longitude"                     # CSV中代表经度(X)的字段名
Y_FIELD = "latitude"                      # CSV中代表纬度(Y)的字段名

# 2. 裁剪边界配置 (支持 .gdb, .shp, .gpkg 等)
CLIP_VECTOR = r"./data/boundary.gdb"     # 空间裁剪面所在的矢量文件路径
CLIP_LAYER = "study_area"                 # 如果是 GDB,填写对应的面图层名

# 3. 缓存与输出配置
TEMP_DIR = r"./data/temp_cache"          # 局部处理时的临时缓存目录
OUTPUT_FILE = r"./output/result.gpkg"    # 最终汇总的 GeoPackage 文件路径
OUTPUT_LAYER = "clipped_points"          # 输出到 GPKG 内的图层名称

# 4. GIS标准配置
CRS = "EPSG:4326"                        # 目标坐标系:GCS_WGS_1984
CHUNK_SIZE = 100000                      # 单次分块读取的行数(视内存大小可调)

# =========================================================
# 🚀 自动化核心流程
# =========================================================

def main():
    # 创建临时缓存与输出目录
    os.makedirs(TEMP_DIR, exist_ok=True)
    os.makedirs(os.path.dirname(OUTPUT_FILE), exist_ok=True)

    # 扫描目标文件夹下的所有 CSV 文件
    csv_files = glob.glob(os.path.join(CSV_FOLDER, "*.csv"))
    if len(csv_files) == 0:
        raise FileNotFoundError(f"在路径 [{CSV_FOLDER}] 下未找到任何 CSV 文件!")
    
    print(f"[INFO] 共发现 {len(csv_files)} 个待处理的 CSV 文件")

    # 载入空间裁剪边界
    print("\n[GIS] 正在读取裁剪面边界...")
    clip_gdf = gpd.read_file(CLIP_VECTOR, layer=CLIP_LAYER)
    # 确保裁剪边界坐标系与点数据一致
    clip_gdf = clip_gdf.to_crs(CRS)

    temp_files = []

    # 循环遍历每个 CSV 文件
    for file_index, csv_path in enumerate(csv_files):
        print(f"\n正在处理文件 ({file_index + 1}/{len(csv_files)}): {os.path.basename(csv_path)}")

        # 开启分块迭代读取
        chunk_iter = pd.read_csv(
            csv_path,
            chunksize=CHUNK_SIZE,
            low_memory=False
        )

        for chunk_id, chunk in enumerate(chunk_iter):
            print(f"  -> 正在处理第 {chunk_id + 1} 块数据...")

            # 第一次过滤:移除坐标存在空值的行
            chunk = chunk.dropna(subset=[X_FIELD, Y_FIELD])

            # 数据类型强转,防止非数值型异常文本堵塞几何构建
            chunk[X_FIELD] = pd.to_numeric(chunk[X_FIELD], errors="coerce")
            chunk[Y_FIELD] = pd.to_numeric(chunk[Y_FIELD], errors="coerce")

            # 第二次过滤:移除强转后产生的空值行
            chunk = chunk.dropna(subset=[X_FIELD, Y_FIELD])

            if chunk.empty:
                continue

            # 构建矢量几何点
            geometry = gpd.points_from_xy(chunk[X_FIELD], chunk[Y_FIELD])
            gdf = gpd.GeoDataFrame(chunk, geometry=geometry, crs=CRS)

            # 执行空间裁剪
            gdf_clip = gpd.clip(gdf, clip_gdf)

            # 如果裁剪后仍有残余点,则写入临时文件
            if not gdf_clip.empty:
                temp_output = os.path.join(
                    TEMP_DIR,
                    f"temp_{file_index}_{chunk_id}.gpkg"
                )
                gdf_clip.to_file(
                    temp_output,
                    layer="points",
                    driver="GPKG"
                )
                temp_files.append(temp_output)

            # 实时、显式释放内存
            del chunk, gdf, gdf_clip
            gc.collect()

    # =========================================================
    # 🔄 成果合并与落盘
    # =========================================================
    if len(temp_files) == 0:
        print("\n[⚠️警告] 没有任何点落在裁剪边界内,未生成任何结果。")
        return

    print("\n[GIS] 开始汇总合并所有中间分块结果...")
    merged_list = []
    for temp_file in temp_files:
        gdf = gpd.read_file(temp_file)
        merged_list.append(gdf)
        # 读完即删,减小物理空间占用
        os.remove(temp_file)

    # 拼接所有的 Dataframe
    merged = pd.concat(merged_list, ignore_index=True)
    merged = gpd.GeoDataFrame(merged, geometry="geometry", crs=CRS)

    print("[GIS] 正在向本地写入最终的 GeoPackage 文件...")
    merged.to_file(
        OUTPUT_FILE,
        layer=OUTPUT_LAYER,
        driver="GPKG"
    )

    print("\n🎉 处理成功完成!")
    print(f"💾 最终成果保存至:{OUTPUT_FILE}")

if __name__ == "__main__":
    main()

欢迎在评论区交流你们处理海量 GIS 数据时踩过的坑!觉得有用的话,点个赞再走吧~