Dask 框架深入浅出教程

一、什么是Dask？

Dask是一个并行计算框架 ，专为Python生态设计，能够轻松处理超过内存的大数据，并充分利用多核CPU或分布式集群的计算能力。它与NumPy、Pandas等主流库无缝兼容，语法风格高度一致，让熟悉Python数据科学工具的开发者几乎零成本上手。

二、为什么选择Dask？

处理超内存数据：当数据量超过单机内存时，Pandas/NumPy会崩溃，而Dask能将数据分块处理，无需一次性加载全部数据。
并行计算：自动将任务分解为子任务，利用多核CPU并行执行，加速计算。
兼容现有工具：Dask DataFrame类似Pandas DataFrame，Dask Array类似NumPy Array，学习成本极低。
灵活扩展：支持单机多核计算，也能扩展到分布式集群（如Hadoop/YARN、Kubernetes）。

三、安装Dask

核心库安装：

bash 复制代码

pip install dask

如需完整功能（包含DataFrame、Array等）：

bash 复制代码

pip install "dask[complete]"  # 包含所有依赖

四、Dask核心概念

惰性计算（Lazy Evaluation） ：

Dask不会立即执行操作，而是先记录操作步骤（形成"任务图"），直到调用compute()才真正执行。这让Dask能优化执行路径，减少不必要的计算。
任务图（Task Graph） ：

所有操作被分解为相互依赖的小任务，形成有向无环图（DAG）。Dask调度器会分析任务图，并行执行独立任务。
调度器（Scheduler） ：

负责执行任务图，默认使用同步调度器（适合调试），生产环境常用多线程（IO密集型）或多进程（CPU密集型）调度器。

五、Dask DataFrame：处理大型表格数据

Dask DataFrame是Pandas DataFrame的"并行版"，语法几乎一致，但能处理比内存大的数据集（通过分块）。

1. 基本用法（对比Pandas）

python 复制代码

import pandas as pd
import dask.dataframe as dd

# 1. 创建数据（假设data.csv是10GB的大文件）
# Pandas（会加载全部数据到内存，可能崩溃）
# df_pandas = pd.read_csv("data.csv")

# Dask（仅创建元数据，不加载数据）
df_dask = dd.read_csv("data.csv")  # 惰性操作

# 2. 查看基本信息
print(df_dask.shape)  # 输出(None, 列数)，行数未知（未加载数据）
print(df_dask.head())  # 仅加载前几行（立即执行）

# 3. 执行操作（惰性）
result_dask = df_dask[df_dask["age"] > 30]["salary"].mean()  # 未执行

# 4. 触发计算（实际执行）
result = result_dask.compute()  # 此时才真正计算
print(result)

2. 核心特性：分块（Partition）

Dask将大文件自动分成多个小块（Partition），每个块是一个Pandas DataFrame。操作会并行应用到每个块，最后合并结果。

python 复制代码

# 查看分块数量
print(df_dask.npartitions)  # 输出分块数

# 手动指定分块大小（例如每100MB一个块）
df_dask = dd.read_csv("data.csv", blocksize="100MB")

3. 常用操作示例

Dask DataFrame支持Pandas的绝大多数操作（如筛选、分组、聚合等）：

python 复制代码

# 筛选年龄>30且薪资>5000的记录
filtered = df_dask[(df_dask["age"] > 30) & (df_dask["salary"] > 5000)]

# 按职业分组，计算平均薪资
grouped = filtered.groupby("occupation")["salary"].mean()

# 计算结果
result = grouped.compute()
print(result)

六、Dask Array：并行处理大型数组

Dask Array类似NumPy Array，支持多维数组的并行计算，适合处理超过内存的大型数组（如卫星图像、科学计算数据）。

python 复制代码

import numpy as np
import dask.array as da

# 1. 创建大型数组（10GB）
# NumPy（内存不足会崩溃）
# arr_np = np.random.rand(10000, 10000, 100)  # 约76GB，远超内存

# Dask（分块创建，不占内存）
arr_dask = da.random.rand(10000, 10000, 100, chunks=(1000, 1000, 10))  # 分块大小

# 2. 查看信息
print(arr_dask.shape)  # (10000, 10000, 100)
print(arr_dask.chunks)  # 分块结构

# 3. 执行操作（惰性）
result_dask = da.mean(arr_dask **2 + da.sin(arr_dask))  # 复杂计算

# 4. 计算结果
result = result_dask.compute()
print(result)

七、Dask Delayed：并行化自定义函数

如果需要并行执行普通Python函数（非DataFrame/Array操作），可以用@delayed装饰器将函数转换为Dask任务。

python 复制代码

from dask import delayed, compute

# 1. 定义普通函数
def add(a, b):
    return a + b

def multiply(c, d):
    return c * d

# 2. 用@delayed装饰，使其支持惰性计算
@delayed
def delayed_add(a, b):
    return a + b

@delayed
def delayed_multiply(c, d):
    return c * d

# 3. 构建任务链（惰性）
x = delayed_add(1, 2)       # 任务1：1+2=3
y = delayed_multiply(x, 4)  # 任务2：3*4=12（依赖任务1）

# 4. 计算结果
result = y.compute()  # 执行任务链，输出12

优势：自动并行化独立任务。例如：

python 复制代码

# 并行计算两个独立加法
a = delayed_add(1, 2)
b = delayed_add(3, 4)
c = delayed_multiply(a, b)  # (3)*(7)=21
print(c.compute())  # 两个加法会并行执行

八、分布式计算简介

当单机性能不足时，Dask可扩展到分布式集群。通过dask.distributed模块创建集群和客户端：

python 复制代码

from dask.distributed import Client, LocalCluster

# 1. 创建本地集群（使用所有可用核心）
cluster = LocalCluster(n_workers=4)  # 4个工作进程
client = Client(cluster)  # 连接集群

# 2. 查看集群信息（可选）
print(client.scheduler_info()["services"])

# 3. 执行任务（语法与单机相同）
df_dask = dd.read_csv("large_data.csv")
result = df_dask["value"].sum().compute()  # 任务会分配到集群执行

# 4. 关闭集群
client.close()
cluster.close()

实际生产中，可连接到外部集群（如通过Client("tcp://scheduler-address:8786")）。

九、总结

适用场景：处理超内存数据、加速多核计算、扩展到分布式集群。
优势：兼容Pandas/NumPy、学习成本低、灵活扩展。
注意事项 ：
- 小数据场景下，Dask可能比Pandas慢（因任务调度开销）。
- 并非所有Pandas操作都支持（可查看官方文档确认）。

通过Dask，你可以用熟悉的Python语法轻松应对大数据计算挑战，无需切换到Spark等其他生态。