批量下载IGS气象文件(利用python爬虫下载igs的气象数据)

下载数据地址:https://cddis.nasa.gov/archive/gnss/data/dailyhttps://cddis.nasa.gov/archive/gnss/data/daily

首先先确认气象文件:

  • Meteorological data file(气象数据)

数据文件可以从 ftp://cddis.nasa.gov/gnss/data/ 下载。该路径下有 daily 和 hourly 两个路径,分别是按天的数据和按小时的数据。再进入下一层,则是按年份建立的目录。再下一层,是按一年的第多少天(Day of Year)为目录名建立的目录。比如想找2020年3月15日的数据按天的数据,经过计算知道那一天是2020年的第75天,所以进入ftp://cddis.nasa.gov/gnss/data/daily/2020/075目录下去寻找下载相应数据。

气象数据文件实例解析:

下面是 WUH200CHN_R_20200751000_01H_05M_MM.rnx 文件的内容。由文件名可知其为中国WUH2站点2020年3月15日10点的气象数据。从文件内容第一行也能看出是气象文件,第四行能看出地点。文件头中"# / TYPES OF OBSERV"这一行表示的本文件中有7个观测类型。观测类型的具体含义可参考 RINEX 标准的附录 A 20 Meteorological Data File -Header Section Description。"SENSOR POS XYZ/H"这一行指定了传感器所在的位置,"SENSOR MOD/TYPE/ACC"这些行指定了传感器的厂商、类型和精度。

数据部分是按时间顺序,每一个观测时间,采样"# / TYPES OF OBSERV"这一行对应的观测类型的数据值。比如数据的第一行表示2020年3月15日10点的气象数据,按顺序分别表示没有冰雹、相对湿度为26.3%,气压值为1013.5 mbar、从上次测量到现在没有累积降雨、干温度为20.7°、风向角327.4°、风速 0.2m/s。

cpp 复制代码
     3.04           METEOROLOGICAL DATA                     RINEX VERSION / TYPE
meteo_read 1.5.1    GFZ ODC             15-Mar-2020 10:02   PGM / RUN BY / DATE
gfzrnx-3078         FILE MERGE          20200315 105747 UTC COMMENT             
WUH200CHN                                                   MARKER NAME         
21602M007                                                   MARKER NUMBER       
     7    HI    HR    PR    RI    TD    WD    WS            # / TYPES OF OBSERV
        0.0000        0.0000        0.0000       25.1262 PR SENSOR POS XYZ/H    
Vaisala             wxt520                        0.3    TD SENSOR MOD/TYPE/ACC
Vaisala             wxt520                        0.5    PR SENSOR MOD/TYPE/ACC
Vaisala             wxt520                        3.0    HR SENSOR MOD/TYPE/ACC
Vaisala             wxt520                        3.0    WD SENSOR MOD/TYPE/ACC
Vaisala             wxt520                        0.3    WS SENSOR MOD/TYPE/ACC
Vaisala             wxt520                        5.0    RI SENSOR MOD/TYPE/ACC
Vaisala             wxt520                        0.1    HI SENSOR MOD/TYPE/ACC
gnss@gfz-potsdam.de WHU/GFZ                                 OBSERVER / AGENCY   
INITIAL_RINEX_VERSION: 2.1                                  COMMENT             
meteo_read 1.5.1    GFZ Potsdam         15-Mar-2020 10:02   COMMENT             
                           Sensor ID: G4540043              COMMENT             
Warning: the value -999.9 indicates no measurement at all   COMMENT             
Info   : Rain as increment of 1/10 mm                       COMMENT             
meteo_read 1.5.1    GFZ Potsdam         15-Mar-2020 10:17   COMMENT             
meteo_read 1.5.1    GFZ Potsdam         15-Mar-2020 10:32   COMMENT             
meteo_read 1.5.1    GFZ Potsdam         15-Mar-2020 10:47   COMMENT             
                                                            END OF HEADER      
 2020 03 15 10 00 00    0.0   26.3 1013.5    0.0   20.7  327.4    0.2
 2020 03 15 10 05 00    0.0   26.7 1013.6    0.0   20.6  304.5    0.1
 2020 03 15 10 10 00    0.0   27.6 1013.6    0.0   20.4  147.4    0.1
 2020 03 15 10 15 00    0.0   27.8 1013.6    0.0   20.2  330.8    0.1
 2020 03 15 10 20 00    0.0   27.8 1013.7    0.0   20.0  350.2    0.2
 2020 03 15 10 25 00    0.0   29.2 1013.7    0.0   19.7  184.4    0.2
 2020 03 15 10 30 00    0.0   29.2 1013.7    0.0   19.4  177.7    0.2
 2020 03 15 10 35 00    0.0   29.4 1013.7    0.0   19.2  168.7    0.1
 2020 03 15 10 40 00    0.0   30.0 1013.8    0.0   19.0  104.8    0.1
 2020 03 15 10 45 00    0.0   30.5 1013.8    0.0   18.7  144.6    0.1
 2020 03 15 10 50 00    0.0   31.1 1013.9    0.0   18.6  345.0    0.1
 2020 03 15 10 55 00    0.0   32.7 1013.9    0.0   18.4  223.2    0.1

批下载气象文件:首先要清楚自己的cddis.nasa.gov账号与密码

首先在自己电脑的c盘下建立一个文件**_netrc** 这个文件存储网站的账号与密码,例如

地址:C:\Users\ylx

cpp 复制代码
machine urs.earthdata.nasa.gov
login xxxxxxxxxxx
password **********

然后利用py进行数据批下载:

python 复制代码
import os
import time
import requests
import subprocess

start_year = 2020
end_year = 2025
station = "zimm"
save_dir = r"H:\zimm_met"

os.makedirs(save_dir, exist_ok=True)

session = requests.Session()

def is_leap_year(year):
    return (year % 4 == 0 and year % 100 != 0) or (year % 400 == 0)

for year in range(start_year, end_year + 1):

    yy = str(year)[-2:]
    folder = f"{yy}m"
    days = 366 if is_leap_year(year) else 365

    for doy in range(1, days + 1):

        doy_str = f"{doy:03d}"

        filename_z = f"{station}{doy_str}0.{yy}m.Z"
        filename_out = f"{station}{doy_str}0.{yy}m"

        url = f"https://cddis.nasa.gov/archive/gnss/data/daily/{year}/{doy_str}/{folder}/{filename_z}"

        z_path = os.path.join(save_dir, filename_z)
        out_path = os.path.join(save_dir, filename_out)

        # 已经下载过
        if os.path.exists(out_path):
            continue

        try:

            # ===== 先检测文件是否存在 =====
            head = session.head(url, timeout=20)

            if head.status_code != 200:
                print(year, doy_str, "不存在")
                continue

            # ===== 再下载 =====
            r = session.get(url, stream=True, timeout=60)

            with open(z_path, "wb") as f:
                for chunk in r.iter_content(65536):
                    if chunk:
                        f.write(chunk)

            # ===== 解压 =====
            subprocess.run(
                ["7z", "x", z_path, f"-o{save_dir}", "-y"],
                stdout=subprocess.DEVNULL,
                stderr=subprocess.DEVNULL
            )

            if os.path.exists(out_path):
                os.remove(z_path)
                print(year, doy_str, "完成")

        except Exception as e:
            print(year, doy_str, "错误", e)

        time.sleep(0.2)

print("\n全部完成")
相关推荐
lifallen6 分钟前
Flink Agents:从 DataStream 到 Agent 算子的接入与装配
java·大数据·人工智能·python·语言模型·flink
做cv的小昊19 分钟前
【conda】打包已有conda环境并在其他服务器上搭建
运维·服务器·python·conda·运维开发·pip·开发
Hommy8822 分钟前
【开源剪映小助手-客户端】目录扫描功能
python·开源·aigc·剪映小助手
Pocker_Spades_A23 分钟前
Python快速入门专业版(五十六)——爬虫会话管理:Cookie与Session原理及实战(保持登录状态)
开发语言·爬虫·python
MwEUwQ3Gx23 分钟前
深入理解 Java Deque 的设计哲学
java·开发语言·python
MoRanzhi120326 分钟前
scikit-learn 决策树分类详解:从原理、可视化到剪枝实战掌握 DecisionTreeClassifier
python·决策树·机器学习·数学建模·分类·scikit-learn·剪枝
财经资讯数据_灵砚智能30 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月5日
大数据·人工智能·python·信息可视化·自然语言处理·ai编程
luom010235 分钟前
诊疗室技术文章大纲
python·beautifulsoup·tornado·dash
飞翔的SA40 分钟前
MLX‑VLM :Mac本地跑通多模态大模型的开源项目!让图片、音频、视频理解一键上手
人工智能·python·macos·音视频
极梦网络无忧10 小时前
OpenClaw 基础使用说明(中文版)
python