利用Git和wget批量下载网页数据

一、Git的下载(参考文章

二. wget下载(网上很多链接)

三、git和wget结合使用

1.先建立一个文本,将代码写入文本(代码如下),将txt后缀改为sh(download_ssebop.sh)。将wget和.sh文件放在一个文件中(F:\PhD\Mult_year_ET\Ssebop)。然后在Ssebop中右击,点击open Git bash here.然后输入:./download_ssebop.sh。点击回车即可。我需要下载的数据网页链接为:https://edcintl.cr.usgs.gov/downloads/sciweb1/shared/fews/web/global/monthly/etav5/downloads/

bash 复制代码
#!/bin/bash

# 设置基本参数
base_url="https://edcintl.cr.usgs.gov/downloads/sciweb1/shared/fews/web/global/monthly/etav5/downloads/"
start_year=2003
end_year=2021
download_dir="./down"

# 创建下载目录(如果不存在)
mkdir -p "$download_dir"

# 遍历每一年和月,构建URL并调用wget进行下载到指定目录
for year in $(seq $start_year $end_year); do
    for month in $(seq -w 1 12); do # 使用-w选项确保月份是两位数
        filename="m${year}${month}.zip"
        url="${base_url}${filename}"
        echo "Downloading ${filename} from ${url}"

        # 使用wget下载文件到指定目录
        if F:/PhD/Mult_year_ET/Ssebop/wget --quiet --show-progress --progress=bar:force -P "$download_dir" "$url"; then
            echo "Successfully downloaded ${filename} into ${download_dir}."
        else
            echo "Failed to download ${filename}."
        fi
    done
done

以上就可以对网页数据进行批量下载!

长路漫漫...

唯有坚持...

相关推荐
洛森唛4 小时前
Elasticsearch DSL 查询语法大全:从入门到精通
后端·elasticsearch
闲云一鹤6 小时前
Git LFS 扫盲教程 - 你不会还在用 Git 管理大文件吧?
前端·git·前端工程化
字节跳动数据平台9 小时前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术10 小时前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康12 小时前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
Elasticsearch2 天前
如何使用 Agent Builder 排查 Kubernetes Pod 重启和 OOMKilled 事件
elasticsearch
vibecoding日记3 天前
为什么我就想要「线性历史 + Signed Commits」,GitHub 却把我当猴耍 🤬🎙️
git·编程工具