【AI大数据工程师特训笔记】第14讲：Linux操作系统与shell脚本

目录

[第1章初识 Linux 与 Shell](#第1章初识 Linux 与 Shell)

[1.1 什么是 Linux 和 Shell？](#1.1 什么是 Linux 和 Shell？)

[1.2 第一个命令：echo](#1.2 第一个命令：echo)

[第2章文件系统与基础命令](#第2章文件系统与基础命令)

[2.1 实验环境准备](#2.1 实验环境准备)

[2.2 路径与导航](#2.2 路径与导航)

[2.3 文件与目录操作](#2.3 文件与目录操作)

[2.4 查看文件内容](#2.4 查看文件内容)

[2.5 文件权限](#2.5 文件权限)

[第3章文本处理三剑客](#第3章文本处理三剑客)

[3.1 grep：搜索文本](#3.1 grep：搜索文本)

[3.2 sed：流编辑器](#3.2 sed：流编辑器)

[3.3 awk：强大的文本分析工具](#3.3 awk：强大的文本分析工具)

[第4章进程管理与系统监控](#第4章进程管理与系统监控)

[4.1 查看进程](#4.1 查看进程)

[4.2 后台运行脚本](#4.2 后台运行脚本)

[4.3 系统资源监控](#4.3 系统资源监控)

[第5章 Shell 脚本编程](#第5章 Shell 脚本编程)

[5.1 变量与输入](#5.1 变量与输入)

[5.2 条件判断](#5.2 条件判断)

[5.3 循环](#5.3 循环)

[5.4 函数](#5.4 函数)

[第6章环境变量与软件管理](#第6章环境变量与软件管理)

[6.1 环境变量](#6.1 环境变量)

[6.2 包管理（Ubuntu）](#6.2 包管理（Ubuntu）)

[6.3 Python 环境与 pip](#6.3 Python 环境与 pip)

[第7章远程连接与文件传输](#第7章远程连接与文件传输)

[7.1 SSH 免密登录](#7.1 SSH 免密登录)

[7.2 scp 文件传输](#7.2 scp 文件传输)

[7.3 rsync 同步](#7.3 rsync 同步)

[第8章大数据与AI高频命令实战](#第8章大数据与AI高频命令实战)

[8.1 日志分析](#8.1 日志分析)

[8.2 批量重命名](#8.2 批量重命名)

[8.3 查找大文件](#8.3 查找大文件)

[8.4 定时任务](#8.4 定时任务)

[第9章综合案例：AI 训练自动化管道](#第9章综合案例：AI 训练自动化管道)

[9.1 准备工作：创建项目目录和脚本](#9.1 准备工作：创建项目目录和脚本)

[9.2 创建主控脚本 pipeline.sh](#9.2 创建主控脚本 pipeline.sh)

[9.3 赋予权限并运行](#9.3 赋予权限并运行)

[9.4 设置定时任务（可选）](#9.4 设置定时任务（可选）)

[第十章大数据迁移：策略、方案与企业实战](#第十章大数据迁移：策略、方案与企业实战)

[10.1 大数据迁移的核心挑战](#10.1 大数据迁移的核心挑战)

[10.2 从"传输"到"搬运"：四类迁移方案对比](#10.2 从“传输”到“搬运”：四类迁移方案对比)

[10.2.1 方案一：批量ETL同步 --- 适合GB~TB级](#10.2.1 方案一：批量ETL同步 — 适合GB~TB级)

[10.2.2 方案二：原生批量加载---破解TB~PB级迁移瓶颈](#10.2.2 方案二：原生批量加载—破解TB~PB级迁移瓶颈)

[10.2.3 方案三：分布式并行迁移 --- 单表PB级的破解之道](#10.2.3 方案三：分布式并行迁移 — 单表PB级的破解之道)

[10.2.4 方案四：离线物理搬运------EB级的终极方案](#10.2.4 方案四：离线物理搬运——EB级的终极方案)

[10.3 企业实战场景精选](#10.3 企业实战场景精选)

[10.4 迁移方案选型决策树](#10.4 迁移方案选型决策树)

目标：面向零基础学员，所有案例都可以在 WSL（Ubuntu）环境中直接运行。

学完本讲义，你将掌握 AI 大数据工程师日常工作中最核心的 Linux 命令和 Shell 脚本编写能力

第1章初识 Linux 与 Shell

1.1 什么是 Linux 和 Shell？

Linux 是一个开源的操作系统，大多数服务器、大数据集群和 AI 训练平台都运行在 Linux 上。

Shell 是用户与 Linux 内核交互的命令行界面，它接收你输入的命令，翻译给系统执行。

你现在打开的 WSL 终端就是 Linux 环境，提示符类似：

复制代码

tianpeng@DESKTOP-4L1UF5S:~$

tianpeng 是用户名
DESKTOP-4L1UF5S 是主机名
~ 表示当前在用户的家目录（即 /home/tianpeng）
$ 表示当前是普通用户权限

问题：为什么大多数服务器、大数据集群和 AI 训练平台都运行在 Linux 上？

大多数服务器 、大数据集群 和AI训练平台 选择**Linux** ，可以归结为四个核心原因：开源免费、极致稳定、生态锁定、硬件掌控。

（1）成本与定制化：开源是基石

Linux 遵循GPL开源协议，任何人都可以免费下载、使用和修改。企业无需支付高昂的**Windows Server**授权费，这对拥有成千上万台服务器的数据中心来说，节省的成本是天文数字。更重要的是，开源意味着企业可以深度定制操作系统内核，剥离不需要的功能，只为特定任务（如高并发网络处理）进行极致优化。

（2）稳定性与自动化：为服务器而生

Linux 的图形界面是可选组件，服务器版通常只保留命令行，所有资源都用于后台服务。一台配置好的**Linux** 服务器可以连续运行数年无需重启。同时，**Linux**天生就是通过命令行和文本配置来管理的，这让自动化运维（通过Shell脚本、Ansible等工具批量管理数万台机器）变得极其简单------这正是大数据和AI集群的刚需。

（3）生态锁定：AI与大数据的技术栈只长在Linux上

这是最直接的原因。主流AI框架（PyTorch、TensorFlow）、大数据引擎（Hadoop、Spark、Flink）和容器技术（Docker、Kubernetes），全都是基于Linux内核特性开发的。许多底层依赖（如NCCL用于GPU通信）甚至只提供Linux版本。开发者不是"选择了Linux"，而是"要用这些工具，就必须在Linux上"。

（4）硬件极限性能：释放GPU与网络的潜能

在AI训练中，GPU集群需要通过RDMA等技术在节点间高速传输大量数据。Linux内核支持用户态网络协议栈和远程直接内存访问（RDMA），能绕过操作系统瓶颈，直接让网卡访问GPU显存，将网络延迟降到极低。此外，Linux在高性能计算（HPC）领域的长期积累，也确保了它能在数千张GPU的集群中高效稳定地调度资源。

所以，**Linux**之所以成为服务器和AI领域的事实标准，是因为它提供了一条成本最低、性能最高、能完全掌控硬件的路径，而整个现代技术生态也恰好只存在于这条路径上。

1.2 第一个命令：`echo`

bash 复制代码

echo "Hello, AI Engineer!"

输出：

bash 复制代码

Hello, AI Engineer!

echo 用于在屏幕上打印文字。

第2章文件系统与基础命令

2.1 实验环境准备

为了让你能够动手操作，我们先创建一套模拟的数据目录 和文件。请依次执行以下命令：

bash 复制代码

# 创建多级目录：~/ai_project/data/logs
# -p 参数：如果父目录不存在则自动创建，避免报错
mkdir -p ~/ai_project/data/logs

# 切换到刚创建的项目目录
cd ~/ai_project

# ============================================
# 以下开始创建模拟的数据文件
# ============================================

# 创建 users.csv 文件，第一行是表头
# > 表示覆盖写入（文件不存在则创建，存在则清空后写入）
echo "user_id,name,score" > data/users.csv

# 向 users.csv 追加三条数据记录
# >> 表示追加写入（在文件末尾添加新内容，不清空原有内容）
echo "101,Alice,95" >> data/users.csv      # 追加第一条数据
echo "102,Bob,78" >> data/users.csv        # 追加第二条数据
echo "103,Charlie,88" >> data/users.csv    # 追加第三条数据

# ============================================
# 以下创建模拟的应用日志文件
# ============================================

# 创建 app.log 文件，写入第一条 INFO 日志
echo "INFO:Server started" > data/logs/app.log

# 追加一条 ERROR 级别的日志
echo "ERROR:Connection timeout" >> data/logs/app.log

# 追加第二条 INFO 日志
echo "INFO:Shutdown complete" >> data/logs/app.log

# ============================================
# 以下创建模拟的 Python 训练脚本
# ============================================

# 创建 train.py 文件，写入第一行代码（导入 numpy 库）
echo "import numpy" > train.py

# 追加第二行代码（打印训练提示信息）
echo "print('training...')" >> train.py

执行完毕后，你的目录结构应该是这样的：

bash 复制代码

~/ai_project/
├── data/
│   ├── logs/
│   │   └── app.log          # 包含3条日志记录
│   └── users.csv            # 包含表头和3条用户数据
└── train.py                 # 包含两行Python代码

验证一下：

bash 复制代码

# 查看目录结构
ls -R ~/ai_project

# 查看 users.csv 的内容
cat ~/ai_project/data/users.csv

# 查看 app.log 的内容
cat ~/ai_project/data/logs/app.log

# 查看 train.py 的内容
cat ~/ai_project/train.py

2.2 路径与导航

bash 复制代码

pwd                   # 查看当前目录，输出：/home/tianpeng/ai_project
ls                    # 列出当前目录下的文件和文件夹
ls -l                 # 详细信息
ls -a                 # 包括隐藏文件
cd data               # 进入 data 目录
cd ..                 # 返回上级目录
cd ~                  # 回到用户家目录
cd ~/ai_project       # 使用绝对路径进入项目目录

2.3 文件与目录操作

bash 复制代码

# 复制文件
cp data/users.csv data/users_backup.csv
ls data/              # 可以看到多了一个文件

# 移动（重命名）文件
mv data/users_backup.csv data/users_v2.csv
ls data/

# 删除文件
rm data/users_v2.csv

# 创建和删除目录
mkdir data/temp
rmdir data/temp   # 只能删除空目录

2.4 查看文件内容

bash 复制代码

cat data/users.csv             # 一次性显示全部
head -n 2 data/users.csv       # 前两行
tail -n 1 data/users.csv       # 最后一行

# 实时查看日志（模拟）
tail -f data/logs/app.log      # 按 Ctrl+C 停止

2.5 文件权限

bash 复制代码

ls -l train.py
# 输出类似：-rw-r--r-- 1 tianpeng tianpeng 25 May 30 10:00 train.py
# rw- 表示所有者可读写，r-- 表示组用户只读，r-- 表示其他用户只读

chmod +x train.py               # 添加执行权限
ls -l train.py                  # 现在变成 -rwxr-xr-x
./train.py                      # 可以直接执行

第3章文本处理三剑客

3.1 grep：搜索文本、

bash 复制代码

grep "ERROR" data/logs/app.log          # 搜索包含 ERROR 的行
grep -v "INFO" data/logs/app.log        # 排除包含 INFO 的行
grep -i "error" data/logs/app.log       # 忽略大小写
grep -r "import" .                      # 递归搜索当前目录下所有文件

3.2 sed：流编辑器

bash 复制代码

sed 's/ERROR/CRITICAL/g' data/logs/app.log    # 将 ERROR 替换为 CRITICAL（只输出不修改）
sed -i 's/101/201/' data/users.csv            # 直接修改文件内容（把101改成201）
cat data/users.csv                            # 检查修改结果

3.3 awk：强大的文本分析工具

bash 复制代码

# 打印 users.csv 的第二列（姓名）
awk -F ',' '{print $2}' data/users.csv

# 打印成绩大于90的行
awk -F ',' '$3>90' data/users.csv

# 计算成绩的平均分
awk -F ',' '{sum+=$3; count++} END {print sum/count}' data/users.csv

第4章进程管理与系统监控

4.1 查看进程

bash 复制代码

ps aux | head               # 查看系统进程
ps aux | grep bash          # 查找当前终端进程

4.2 后台运行脚本

创建一个模拟训练脚本 train_model.sh：

bash 复制代码

# 创建脚本
cat << 'EOF' > ~/ai_project/train_model.sh
#!/bin/bash
echo "Training started at $(date)"
sleep 30
echo "Training finished at $(date)"
EOF

# 修改权限
chmod +x ~/ai_project/train_model.sh

后台执行：

bash 复制代码

cd ~/ai_project
nohup ./train_model.sh > training.log 2>&1 &

nohup 保证即使关闭终端也不中断
> 重定向标准输出到文件
2>&1 将错误输出也合并到标准输出
& 放到后台运行

查看后台任务：

bash 复制代码

jobs          # 查看当前终端的后台任务
cat training.log

4.3 系统资源监控

bash 复制代码

df -h         # 磁盘使用情况
free -h       # 内存使用
top -bn1 | head   # 一次性查看系统负载

第5章 Shell 脚本编程

5.1 变量与输入

我们首先创建一个叫 var_demo.sh 的脚本文件。这里我们使用 cat 命令配合 << 'EOF' 一次性写入多行内容。

bash 复制代码

# 确保我们在项目根目录
cd ~/ai_project

# 使用 cat << 'EOF' 创建 var_demo.sh 文件
# 下面这条命令会等待你输入内容，直到单独一行出现 EOF 才会结束
cat << 'EOF' > var_demo.sh
#!/bin/bash
# 变量与输入演示脚本
name="AI工程师"
echo "Hello, $name"

read -p "请输入你的年龄：" age
echo "你的年龄是$age岁"

current_date=$(date +%Y-%m-%d)
echo "今天是 $current_date"
EOF

cat << 'EOF' > var_demo.sh：把接下来输入的内容写入 var_demo.sh，直到遇到 EOF 为止。
脚本第一行 #!/bin/bash 是 shebang，指定用 bash 解释器执行。
name="AI工程师" 定义变量，等号两边不能有空格。
read -p "提示语" 变量名 用来读取用户输入。
$(date +%Y-%m-%d) 是命令替换，会执行 date 命令并把输出结果赋值给变量。

赋予执行权限并运行：

bash 复制代码

chmod +x var_demo.sh   # 给文件添加可执行权限
./var_demo.sh          # 执行脚本，按提示输入年龄即可看到效果

5.2 条件判断

接下来创建 check_score.sh，同样用 cat << 'EOF' 写入。

bash 复制代码

# 创建 check_score.sh 文件并向文件中写入shell脚本
cat << 'EOF' > check_score.sh
#!/bin/bash
# 成绩等级判断脚本
read -p "请输入成绩：" score

if [ $score -ge 90 ]; then
    echo "优秀"
elif [ $score -ge 80 ]; then
    echo "良好"
elif [ $score -ge 60 ]; then
    echo "及格"
else
    echo "不及格"
fi
EOF

# 授权
chmod +x check_score.sh

# 执行脚本
./check_score.sh        # 输入不同分数，查看不同评级

说明：

if [ 条件 ]; then 语法中的方括号内部前后必须有空格。
-ge 表示大于等于，-lt 表示小于，-eq 表示等于。
elif 可以写多个分支，else 是以上都不满足时执行。

5.3 循环

创建 batch_process.sh，用来遍历某个目录下所有的 CSV 文件并统计行数。

bash 复制代码

cat << 'EOF' > batch_process.sh
#!/bin/bash
# 批量处理 CSV 文件，统计每个文件的行数

# 遍历 ~/ai_project/data/ 目录下所有 .csv 文件
for file in ~/ai_project/data/*.csv; do
    echo "正在处理文件：$file"
    wc -l $file
done
EOF

# 授权
chmod +x batch_process.sh

# 执行
./batch_process.sh

5.4 函数

创建 function_demo.sh 演示脚本内自定义函数。

bash 复制代码

# 创建 function_demo.sh 文件
cat << 'EOF' > function_demo.sh
#!/bin/bash
# 函数演示脚本

greet() {
    echo "你好，$1！欢迎学习$2"
}

# 调用函数，传入两个参数
greet "小明" "大数据"
EOF

# 授权
chmod +x function_demo.sh

# 执行shell脚本
./function_demo.sh

说明：

greet() 是函数定义，$1 和 $2 分别表示第一个和第二个参数。
函数调用直接写函数名，后跟参数即可。

第6章环境变量与软件管理

本章内容以命令演示为主，不需要创建脚本文件，但需要你逐条执行。

6.1 环境变量

bash 复制代码

echo $PATH       # 打印可执行文件搜索路径
echo $HOME       # 打印当前用户家目录
export MY_NAME="tianpeng"   # 临时设置环境变量（仅当前会话有效）
echo $MY_NAME

# 永久生效：写入 ~/.bashrc
echo 'export MY_NAME="tianpeng"' >> ~/.bashrc
source ~/.bashrc           # 重新加载配置文件，使环境变量立即生效
echo $MY_NAME              # 再次打印，确认永久生效

6.2 包管理（Ubuntu）

bash 复制代码

sudo apt update                  # 更新软件源（需要输入你的用户密码）
sudo apt install -y htop         # 安装 htop，-y 表示自动确认
htop                             # 启动 htop（按 q 退出）

6.3 Python 环境与 pip

bash 复制代码

python3 --version           # 查看已安装的 Python3 版本

第7章远程连接与文件传输

7.1 SSH 免密登录

SSH免密登录是通过密钥对 进行身份验证，从而省去每次连接时输入密码的繁琐步骤 。其原理是：在客户端使用 ssh-keygen 生成一对公钥和私钥，然后将公钥复制到远程服务器的 ~/.ssh/authorized_keys 文件中。当客户端发起连接时，服务器会用该公钥加密一个随机字符串发送给客户端，客户端必须用对应的私钥解密并返回，从而证明自己的身份，整个过程无需传输或存储明文密码。对于大数据和AI集群来说，这是自动化运维的基础，因为它能让脚本、分布式系统以及节点间的数据拷贝在无人值守的情况下安全、无缝地执行。

bash 复制代码

# 先生成密钥对（如果之前已经生成过，可跳过这一步）
ssh-keygen -t rsa -f ~/.ssh/id_rsa -N ""

# 把自己的公钥追加到 authorized_keys 文件，授权给自己
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

# 修改权限
chmod 600 ~/.ssh/authorized_keys

# 启动 SSH 服务（WSL 默认可能没有启动）
sudo service ssh start

# 尝试用 ssh 连接自己，验证免密是否成功
ssh localhost
# 第一次会提示是否信任，输入 yes，之后应该直接登录。
# 登录成功后输入 exit 退出。
exit

7.2 scp 文件传输

SCP（Secure Copy Protocol）是一种基于 SSH（Secure Shell）协议进行安全文件传输 的命令行工具，它利用 SSH 的加密通道在本地与远程服务器之间 、或两台远程服务器 之间拷贝文件，因此传输过程是加密且安全的 。其命令格式通常为 scp [源路径] [目标路径]，可以将本地文件上传到远程（scp localfile user@host:/remote/path）或从远程下载文件到本地（scp user@host:/remote/path localfile），并支持递归拷贝整个目录（-r 选项）和保留文件属性（-p 选项）。对于 AI 大数据工程师而言，SCP 常用于将本地训练脚本、数据集上传到云 GPU 服务器，或者从集群中下载训练好的模型权重和日志，是实现远程协作与自动化部署的基础传输手段。

bash 复制代码

mkdir ~/backup          # 创建备份目录
# 使用 scp 将 users.csv 复制到本机的 ~/backup 目录
scp ~/ai_project/data/users.csv localhost:~/backup/
# 检查是否拷贝成功
ls ~/backup/

7.3 rsync 同步

RSYNC（Remote Sync）是一款高效的远程文件同步工具，它最大的特点是增量传输 ------只拷贝源和目标之间发生变化的那部分数据，而不是每次都全量复制，从而极大节省带宽和时间。它基于 SSH 协议进行安全传输，常用命令为 rsync -avz 源路径 user@host:目标路径，其中 -a 保持文件属性、-v 显示详情、-z 压缩传输。对于 AI 大数据工程师来说，rsync 常用于将本地开发好的代码和数据集快速同步到远程 GPU 集群，或在多个训练节点之间定时同步模型权重和日志。

bash 复制代码

# 将整个 data 目录同步到备份目录下的 data_sync 子目录
rsync -avz ~/ai_project/data/ ~/backup/data_sync/
# 查看同步结果
ls ~/backup/data_sync/

第8章大数据与AI高频命令实战

8.1 日志分析

bash 复制代码

# 回到 ai_project 目录
cd ~/ai_project

# 统计 app.log 中各日志级别出现的次数
# grep -oE 提取匹配的单词，sort 排序，uniq -c 统计重复次数
grep -oE 'INFO|ERROR' data/logs/app.log | sort | uniq -c

8.2 批量重命名

bash 复制代码

cd ~/ai_project

# 先创建几个 .txt 文件用于测试
touch note1.txt note2.txt note3.txt

# 遍历所有 .txt 文件，将后缀改为 .md
for f in *.txt; do
    mv "$f" "${f%.txt}.md"
done

# 查看改过之后的文件
ls *.md

8.3 查找大文件

bash 复制代码

# 查找当前目录下文件大小大于 1KB 的文件
find . -type f -size +1k

8.4 定时任务

bash 复制代码

sudo service cron start             # 启动 cron 服务
crontab -e                          # 编辑当前用户的定时任务 ，直接按 回车键（Enter） 即可

# 在打开的编辑器中添加一行：
* * * * * echo "每分钟执行一次" >> ~/ai_project/cron_test.log

# 保存并退出后，等待两三分钟，然后查看结果：
cat ~/ai_project/cron_test.log

按 ctrl + o -> Enter -> ctrl + x 完成保存并退出

第9章综合案例：AI 训练自动化管道

9.1 准备工作：创建项目目录和脚本

bash 复制代码

# 创建管道专用目录
mkdir -p ~/ai_project/pipeline
cd ~/ai_project/pipeline

（1）创建数据预处理脚本 preprocess.sh

bash 复制代码

cat << 'EOF' > preprocess.sh
#!/bin/bash
echo "Preprocessing data..."
sleep 2
echo "Data preprocessed." >> preprocess.log
EOF

（2）创建训练脚本 train.py

bash 复制代码

cat << 'EOF' > train.py
#!/usr/bin/env python3
import datetime
print(f"Training started at {datetime.datetime.now()}")
# 模拟训练过程
import time
time.sleep(5)
print("Training completed.")
EOF

9.2 创建主控脚本 `pipeline.sh`

bash 复制代码

cat << 'EOF' > pipeline.sh
#!/bin/bash
set -e   # 任何一条命令出错就立刻退出
LOGFILE=~/ai_project/pipeline/pipeline.log
echo "=== Pipeline started at $(date) ===" >> $LOGFILE

# 1. 数据预处理
./preprocess.sh
echo "Preprocess done." >> $LOGFILE

# 2. 模型训练
python3 train.py >> $LOGFILE 2>&1
echo "Training done." >> $LOGFILE

# 3. 归档结果
tar -czf results_$(date +%Y%m%d).tar.gz preprocess.log
echo "Archive created." >> $LOGFILE

echo "=== Pipeline finished at $(date) ===" >> $LOGFILE
EOF

9.3 赋予权限并运行

bash 复制代码

chmod +x preprocess.sh pipeline.sh train.py
./pipeline.sh

运行成功后，查看日志：

bash 复制代码

cat pipeline.log

同时，results_20260530.tar.gz 文件也会生成，里面包含 preprocess.log。

9.4 设置定时任务（可选）

如果想让它每天凌晨2点自动执行，可以编辑 crontab：

bash 复制代码

crontab -e
# 添加一行：
0 2 * * * /home/tianpeng/ai_project/pipeline/pipeline.sh

至此，每个 Shell 脚本的完整创建过程、命令注释和执行方法都已详细给出。你可以对照上面的步骤，在 WSL 中从头到尾操作一遍，确保完全掌握。

第十章大数据迁移：策略、方案与企业实战

学习目标：理解大数据迁移的核心挑战，掌握从传统ETL批量同步到分布式并行加载、从在线传输到离线物理搬运的多层次迁移方案，并能够根据数据量级、网络条件和业务容忍度选择最合适的迁移策略。

10.1 大数据迁移的核心挑战

在企业数字化转型和云迁移过程中，大数据迁移是最棘手也最容易出问题的环节。和传统数据库迁移不同，大数据迁移面临三个根本性难题：

挑战一：数据量级巨大，常规工具不堪重负

传统数据库迁移，比如从MySQL搬到PostgreSQL，数据量通常在GB到TB级别，一个mysqldump加psql就能搞定。但大数据场景下，数据量动辄从TB起步，向PB甚至EB级别延伸。这种量级下，任何依赖单机处理的工具都会成为瓶颈 --- 不是内存溢出，就是传输时间以周甚至月为单位。

mysqldump 是 MySQL 数据库自带的逻辑备份工具，能将数据库结构和数据导出为 SQL 文本文件；

psql 是 PostgreSQL 的交互式命令行客户端，可执行 SQL 文件将数据导入 PostgreSQL。

两者结合常用于从 MySQL 迁移数据到 PostgreSQL：先用 mysql``dump 导出 MySQL 数据为 SQL 文件，再用 psql 执行该文件完成导入。

--> 直接通过SQL脚本来完成。

挑战二：异构生态之间的"方言不通"

大数据迁移很少发生在同构系统之间。企业经常需要把数据从自建的Hadoop集群迁移到云上的MaxCompute，或者从Hive迁移到Iceberg湖仓一体架构，又或者从ClickHouse迁移到StarRocks。这些系统在存储格式、元数据管理、SQL方言、分区策略上完全不同，迁移不仅仅是"把文件拷过去"，而是需要格式转换、Schema适配、数据校验等一整套工作。

挑战三：业务连续性要求下的增量同步

PB级数据迁移不可能让业务停机等待。初始的全量迁移可能需要几天甚至几周，在这期间，源端数据仍在不断写入。如何在全量迁移 完成后，把增量数据 无缝追上，并在某个时间点完成"割接"，是迁移方案设计中必须解决的问题。

挑战四：传统数据集成工具（如DataX、Sqoop）的局限

你可能会想到用DataX、Sqoop这类数据集成工具来做迁移。这些工具确实擅长常规的ETL同步，但在PB级迁移场景下会遇到明显的天花板：

单机架构瓶颈：DataX是单机程序，所有数据读写都通过一台机器中转，即使开启了多线程，这台机器的网卡带宽和CPU能力也有限。在千兆网络环境下，DataX的实际传输速度通常在30-50MB/s，迁移1PB数据需要超过230天------这在业务上完全不可接受。
缺乏分布式协调：DataX的并发局限于单机多线程，无法把任务分散到集群的多台机器上并行执行，无法横向扩展。
断点续传支持弱：TB级以上迁移过程中途出错概率大，传统工具通常只能重跑整个任务，缺乏从断点精确恢复的能力。
异构元数据适配差：DataX可以搬运数据文件，但无法处理分区策略变更、Schema演进、ACID事务等高级表特性。从Hive迁移到MaxCompute或Iceberg时，这些特性往往需要人工处理。

10.2 从"传输"到"搬运"：四类迁移方案对比

面对这些挑战，企业常用的迁移方案可以归纳为四大类，从轻到重、从慢到快依次递进。

方案	核心思路	适用量级	速度量级	典型工具
批量ETL同步	通过数据集成工具，Reader读取源端、Writer写入目标端	GB~TB	MB/s~GB/h	DataX、Sqoop、SeaTunnel
原生批量加载	绕过中间层，直接使用目标端原生的高速加载接口	TB~PB	GB/s	MaxCompute Tunnel、StarRocks Stream Load、Iceberg Load Data
分布式并行迁移	将数据集切分，在多个节点上同时跑加载任务	PB+	数十GB/s	自研脚本 + 目标端批量加载
离线物理搬运	将数据拷贝到硬件设备，快递寄送到云厂商机房后导入	EB级	物理速度	阿里云闪电立方、AWS Snowmobile

10.2.1 方案一：批量ETL同步 --- 适合GB~TB级

这是你最熟悉的方式。通过配置数据集成工具（如DataX的JSON任务、DataWorks的可视化任务），定义Reader和Writer，将数据从源端抽取到目标端。这种方式胜在简单易用，全程有界面的编排和监控，适合日常的数仓ETL和中小规模数据迁移。

适用场景：单表GB级、总数据量TB级以下的迁移；需要定时增量同步的场景。

局限：当数据量达到数十TB以上，单机处理能力就会成为瓶颈。即使用SeaTunnel这类支持分布式的工具，速度有提升，但仍然受限于Reader和Writer的适配能力和网络中间节点。

注意数据类型的问题：

把mysqldump导出的文件直接扔进psql执行，大概率会执行失败。正确的做法是在导出时加上 --compatible=postgresql 参数尽量生成PG兼容的SQL，导出后用 sed 脚本批量替换不兼容的类型和语法，再手动检查一遍DDL，最后才在psql中执行导入。对于系统级的自动迁移，仍需预先配置好类型映射表，否则迁移就会因类型不匹配而中断。

10.2.2 方案二：原生批量加载---破解TB~PB级迁移瓶颈

这是企业做大规模数据迁移的首选方案。核心思路是"绕过中间商，直接走专线 "------不再通过数据集成工具的Reader-Writer中转，而是直接使用目标端数据库 或数据平台的原生高速导入接口。

原理解析

MaxCompute Tunnel、StarRocks Stream Load、Iceberg的LOAD DATA命令，都是目标端专门为批量数据加载设计的高性能接口。它们的共同特点是：

流式直写：数据流直接写入底层存储（分布式文件系统或对象存储），不经过SQL解析层和事务层
高并发多通道：支持将单个大文件切分成多个块，多线程并行上传
客户端轻量：客户端只负责读文件和发数据，计算开销极小，可以充分打满网络带宽

方案优势

速度大幅提升：单机Tunnel上传可达100-200MB/s，是DataX的3-5倍；若在多个节点上同时跑，速度可以线性叠加到GB/s级别
全量+增量均可覆盖：全量使用批量加载，增量用目标端的增量写入接口（如MaxCompute的Streaming Tunnel）
失败可重试：单个文件上传失败，只需重新上传该文件即可，不需要重跑整个任务

实操案例：Hadoop到MaxCompute的Tunnel批量加载

假设我们需要将Hadoop集群中/user/hive/warehouse/db/table/目录下的Parquet文件全部迁移到MaxCompute。

步骤一：在Hadoop客户端节点生成待迁移文件清单

bash 复制代码

hadoop fs -ls /user/hive/warehouse/db/table/dt=2024-01-01/*.parquet \
  | awk '{print $8}' > /tmp/upload_list.txt

步骤二：编写Tunnel上传脚本

bash 复制代码

#!/bin/bash
# tunnel_upload.sh：逐行读取文件列表，使用Tunnel上传
while IFS= read -r file; do
    odpscmd tunnel upload \
      --project=my_project \
      --table=target_table \
      --partition=dt='2024-01-01' \
      -bs=102400 \
      $file
done < $1

步骤三：将文件列表分割，在多台机器上并行执行

bash 复制代码

# 将文件列表分成20份
split -n l/20 /tmp/upload_list.txt /tmp/upload_part_

# 在多个节点上分别执行，最大化并行度
# node1: bash tunnel_upload.sh /tmp/upload_part_aa &
# node2: bash tunnel_upload.sh /tmp/upload_part_ab &
# ...

这种方式可以将迁移速度从DataX的几十MB/s提升到数GB/s，数十TB的数据可以在数小时内完成迁移。

10.2.3 方案三：分布式并行迁移 --- 单表PB级的破解之道

当单表或单分区就达到PB级时，即使目标端支持高速批量加载，单机处理也会有瓶颈------机器网卡通常只有10Gbps或25Gbps，理论极限也就1-3GB/s。要突破这个瓶颈，必须在多台机器上同时跑上传任务。

**原理解析：**分布式并行迁移的本质是：把待迁移的数据集按照文件维度切分成N份，在N个不同的节点上同时启动上传进程，每个节点只负责自己那一份。总吞吐量大致等于"单机吞吐量 × 节点数"。

方案优势

吞吐线性扩展：增加节点即可提升总速度
不依赖中心调度：各节点独立运行，无协调开销
利用现有集群资源：可以直接在Hadoop集群的DataNode节点上运行脚本，让数据不跨网络读取

注意事项

每个节点的上传脚本需要独立记录进度，以便失败后从断点恢复
最终所有节点上传完成后，目标端可能存在大量小文件，需要在目标端执行一次合并（Compaction）操作
这种方案需要一定的脚本编写和运维能力

10.2.4 方案四：离线物理搬运------EB级的终极方案

当数据量达到EB级别，即使有万兆带宽，纯线上传输也需要数周甚至数月。此时最有效的方式是物理搬运------把数据拷进一个专用硬件设备，用快递寄到云厂商机房，由云厂商直接把数据灌入目标系统。

这种方式听起来原始，但在超大规模数据面前，物理带宽（一辆卡车满载硬盘在高速上跑）的吞吐量远超任何网络专线。阿里云闪电立方 、**AWS Snowmobile**都是基于这个原理。

适用场景：百TB到EB级别的云迁移，或者网络条件极差（专线未开通、跨国带宽有限）的场景。

10.3 企业实战场景精选

场景一：金融企业Hadoop向云上MaxCompute迁移（200TB）

背景：某银行将线下Hadoop集群的200TB历史数据迁移到阿里云MaxCompute，为后续AI风控模型训练提供统一数据底座。要求在一个周末窗口（48小时）内完成全量迁移。

为什么常规DataWorks方案不够？ 200TB数据用DataWorks集成任务，按30MB/s算需要约80天，远超48小时窗口。

采用方案：原生批量加载 --- MaxCompute Tunnel + 分布式并行上传。

执行过程：

（1）在Hadoop集群的10个DataNode节点上各部署一个Tunnel上传脚本

（2）将待迁移文件列表平均分给10个节点

（3）10个节点同时上传，单节点吞吐约80MB/s，总吞吐约800MB/s

（4）全量迁移耗时约70小时，两个周末窗口内完成

场景二：电商企业Hive到Iceberg的湖仓升级（500TB）

背景：某电商企业将数据湖从Hive格式全面升级为Iceberg湖仓一体架构，需要把500TB的存量Hive表转换为Iceberg表。

为什么不是简单拷贝？ Hive表和Iceberg表的元数据管理方式完全不同。Hive用目录式分区（/dt=2024-01-01/），Iceberg用快照+Manifest管理。直接拷贝数据文件会让Iceberg无法识别这些文件。

采用方案 ：Spark批量重写 --- 使用Spark SQL的CREATE TABLE AS SELECT语法，读取Hive表，写入Iceberg表。Spark会自动完成格式转换和元数据生成。

执行过程：

bash 复制代码

-- 对每张Hive表执行
CREATE TABLE iceberg_db.target_table
USING iceberg
PARTITIONED BY (dt)
AS SELECT * FROM hive_db.source_table;

通过DolphinScheduler编排，数百张表并行转换，500TB数据在一个月内分批完成迁移，同时借助Iceberg的时间旅行功能保留了所有历史快照。

场景三：跨国制造企业数据中心整体上云（1.5PB）

背景：某制造企业关闭海外数据中心，将1.5PB历史数据整体迁移到云上。跨国专线带宽仅500Mbps，且不稳定。

采用方案：离线物理搬运------阿里云闪电立方。

执行过程：

（1）阿里云寄送两个闪电立方设备（单台容量1PB）到企业机房

（2）企业IT团队将数据拷贝到设备中（耗时约一周）

（3）设备快递寄回阿里云数据中心

（4）阿里云工程师将数据导入客户的项目中（耗时约一周）

（5）从寄出到数据可用，总计约三周，远快于线上传输的数月预估

场景四：广告平台从ClickHouse实时迁移到StarRocks（100TB）

背景：某广告平台将实时分析引擎从ClickHouse迁移到StarRocks，以降低存储成本并提升查询性能。要求迁移期间业务不可中断，查询延迟不能明显上升。

采用方案：StarRocks Stream Load批量加载 + 双写兜底。

执行过程：

（1）历史数据用Stream Load批量导入StarRocks，发挥其列存高吞吐写入能力

（2）增量数据通过Flink CDC同时写入ClickHouse和StarRocks

（3）验证StarRocks的查询性能和结果正确性后，将BI和业务查询流量逐步切到StarRocks

（4）稳定运行一周后，下线ClickHouse，完成割接

10.4 迁移方案选型决策树

在实际项目中，你可以按照以下决策树快速选择方案：

bash 复制代码

数据量有多大？
├── GB~TB级
│   └── 方案一：批量ETL同步（DataX / SeaTunnel）
│       优势：配置简单，任务可调度，增量同步成熟
│
├── TB~PB级（单表数百TB）
│   └── 方案二：原生批量加载（MaxCompute Tunnel / StarRocks Stream Load）
│       优势：直接走专线，速度是ETL工具的3-5倍
│
├── PB+（单表PB以上或集群总数据量数十PB）
│   └── 方案三：分布式并行迁移
│       优势：多节点同时加载，吞吐可线性扩展
│
└── EB级或网络条件极差（跨国、弱网）
    └── 方案四：离线物理搬运（闪电立方 / Snowmobile）
        优势：物理速度碾压任何网络

迁移成功的三个关键检查点：

（1）总量核对：迁移前后行数、文件数、总数据大小是否一致

（2）抽样验证：随机抽取数千行，检查具体字段值是否完全一致

（3）聚合比对：对关键指标（如总金额、日均交易笔数）在源端和目标端分别计算，确保差异在可接受范围内

只有在完成这三个校验之后，一次数据迁移才能算真正完成。

【AI大数据工程师特训笔记】第14讲：Linux操作系统与shell脚本

第1章 初识 Linux 与 Shell

1.1 什么是 Linux 和 Shell？

1.2 第一个命令：echo

第2章 文件系统与基础命令

2.1 实验环境准备

2.2 路径与导航

2.3 文件与目录操作

2.4 查看文件内容

2.5 文件权限

第3章 文本处理三剑客

3.1 grep：搜索文本、

3.2 sed：流编辑器

3.3 awk：强大的文本分析工具

第4章 进程管理与系统监控

4.1 查看进程

4.2 后台运行脚本

4.3 系统资源监控

第5章 Shell 脚本编程

5.1 变量与输入

5.2 条件判断

5.3 循环

5.4 函数

第6章 环境变量与软件管理

6.1 环境变量

6.2 包管理（Ubuntu）

6.3 Python 环境与 pip

第7章 远程连接与文件传输

7.1 SSH 免密登录

7.2 scp 文件传输

7.3 rsync 同步

第8章 大数据与AI高频命令实战

8.1 日志分析

8.2 批量重命名

8.3 查找大文件

8.4 定时任务

第9章 综合案例：AI 训练自动化管道

9.1 准备工作：创建项目目录和脚本

9.2 创建主控脚本 pipeline.sh

9.3 赋予权限并运行

9.4 设置定时任务（可选）

第十章 大数据迁移：策略、方案与企业实战

10.1 大数据迁移的核心挑战

10.2 从"传输"到"搬运"：四类迁移方案对比

10.2.1 方案一：批量ETL同步 --- 适合GB~TB级

10.2.2 方案二：原生批量加载---破解TB~PB级迁移瓶颈

10.2.3 方案三：分布式并行迁移 --- 单表PB级的破解之道

10.2.4 方案四：离线物理搬运------EB级的终极方案

10.3 企业实战场景精选

10.4 迁移方案选型决策树

第1章初识 Linux 与 Shell

1.2 第一个命令：`echo`

第2章文件系统与基础命令

第3章文本处理三剑客

第4章进程管理与系统监控

第6章环境变量与软件管理

第7章远程连接与文件传输

第8章大数据与AI高频命令实战

第9章综合案例：AI 训练自动化管道

9.2 创建主控脚本 `pipeline.sh`

第十章大数据迁移：策略、方案与企业实战