Airflow“3分钟上手”教程:用Python定义定时数据清洗任务

一、第1步:快速安装Airflow(1分钟)

Docker一键部署(推荐)

复制代码
bash

# 克隆官方项目(含Docker配置) git clone https://gitcode.com/GitHub_Trending/ai/airflow cd GitHub_Trending/ai/airflow # 启动开发环境(自动安装依赖) ./breeze start-airflow

验证 :访问 http://localhost:8080,默认账号密码均为 airflow

---

二、第2步:写Python数据清洗DAG(1分钟)

创建DAG文件

airflow/dags 目录下新建 datacleaning_dag.py

复制代码
python

from airflow import DAG from airflow.operators.python import PythonOperator from datetime import datetime, timedelta import pandas as pd # 1. 定义数据清洗函数 def clean_data(): # 读取原始数据(假设本地有raw_data.csv) df = pd.read_csv('/opt/airflow/dags/raw_data.csv') # 清洗逻辑:去重、删空值 df = df.drop_duplicates().dropna().reset_index(drop=True) # 保存清洗后数据 df.to_csv('/opt/airflow/dags/cleaned_data.csv', index=False) # 2. 定义DAG(定时任务流程) with DAG( dag_id='daily_data_cleaning', # DAG名称 start_date=datetime(2023, 1, 1), # 开始日期 schedule_interval='@daily', # 调度频率:每天执行 catchup=False # 不回溯执行历史任务 ) as dag: # 3. 创建任务(调用Python函数) clean_task = PythonOperator( task_id='clean_data_task', # 任务ID python_callable=clean_data # 绑定清洗函数 ) # 4. 设置任务依赖(单任务无需依赖,多任务用 >> 连接) clean_task

三、第3步:启动调度与监控(1分钟)

1. 启动Airflow服务
复制代码
bash

# 启动Web服务器(后台运行) airflow webserver -D -p 8080 # 启动调度器(处理定时任务) airflow scheduler -D

2. 在Web界面监控任务

访问 http://localhost:8080,在DAG列表中找到 daily_data_cleaning,点击 ▶️ 启动。

  • 状态说明:绿色表示成功,红色表示失败,点击任务可查看日志(如数据路径错误、依赖缺失等)。

关键说明 智优达

  • 调度频率schedule_interval 支持 cron 表达式(如 0 8 * * * 每天8点执行)或预设值(@hourly 每小时、@weekly 每周)。
  • 文件路径 :Airflow容器内路径需挂载本地目录(如 -v /本地数据目录:/opt/airflow/dags),确保能读取 raw_data.csv
相关推荐
梦帮科技2 分钟前
OpenClaw 桥接调用 Windows MCP:打造你的 AI 桌面自动化助手
人工智能·windows·自动化
Once_day5 分钟前
C++之《程序员自我修养》读书总结(1)
c语言·开发语言·c++·程序员自我修养
永远都不秃头的程序员(互关)9 分钟前
CANN模型量化赋能AIGC:深度压缩,释放生成式AI的极致性能与资源潜力
人工智能·aigc
爱华晨宇12 分钟前
CANN Auto-Tune赋能AIGC:智能性能炼金术,解锁生成式AI极致效率
人工智能·aigc
聆风吟º15 分钟前
CANN算子开发:ops-nn神经网络算子库的技术解析与实战应用
人工智能·深度学习·神经网络·cann
偷吃的耗子20 分钟前
【CNN算法理解】:CNN平移不变性详解:数学原理与实例
人工智能·算法·cnn
勾股导航20 分钟前
OpenCV图像坐标系
人工智能·opencv·计算机视觉
神的泪水22 分钟前
CANN 生态实战:`msprof-performance-analyzer` 如何精准定位 AI 应用性能瓶颈
人工智能
芷栀夏22 分钟前
深度解析 CANN 异构计算架构:基于 ACL API 的算子调用实战
运维·人工智能·开源·cann
威迪斯特23 分钟前
项目解决方案:医药生产车间AI识别建设解决方案
人工智能·ai实时识别·视频实时识别·识别盒子·识别数据分析·项目解决方案