PyFlink Debugging从“看不到日志”到“精准定位 UDF 性能瓶颈”

1. 日志体系:Client Side vs Server Side(别搞错位置)

1.1 Client Side Logging(提交端日志)

适用:UDF 之外 的代码,比如建表、拼 SQL、打印 schema、构建 pipeline 的过程。

python 复制代码
from pyflink.table import EnvironmentSettings, TableEnvironment
import logging

env_settings = EnvironmentSettings.in_streaming_mode()
table_env = TableEnvironment.create(env_settings)

table = table_env.from_elements([(1, 'Hi'), (2, 'Hello')])

logging.warning(table.get_schema())
print(table.get_schema())

关键点:

  • Client 侧默认日志级别是 WARNING
  • 所以 logging.info(...) 通常你看不到,想看就用 warning/error 或调整 logging 配置

1.2 Server Side Logging(TaskManager 日志)

适用:Python UDF 内部,也就是你怀疑逻辑不对、数据不对、性能不对的时候。

python 复制代码
from pyflink.table import DataTypes
from pyflink.table.udf import udf
import logging

@udf(result_type=DataTypes.BIGINT())
def add(i, j):
    logging.info("debug info in TM log")
    print("debug print in TM log")
    return i + j

关键点:

  • Server 侧默认日志级别是 INFO
  • 你的 UDF 里的 logging.info 默认是能看到的(在 TaskManager 日志里)

2. 日志落盘位置:你到底去哪找

日志一般在:

  • $FLINK_HOME/log/

日志会写到 pyflink 模块目录下的 log 目录。官方给了一个一行命令直接定位:

bash 复制代码
python -c "import pyflink;import os;print(os.path.dirname(os.path.abspath(pyflink.__file__))+'/log')"

你可以把它作为博客里的"找日志最快方法"。

3. 调试 Python UDF:本地调试 vs 远程断点

3.1 Local Debug(本地 IDE 调试)

适合:你跑的是本地 mini cluster / 或者你只是想先把 Python 函数本身逻辑跑通。

做法:直接在 PyCharm/IDEA 的 Python 环境里对函数断点、单步即可。

建议小技巧:

  • 把 UDF 的核心逻辑提成普通 python 函数(纯函数),本地先测
  • 再包一层 udf/udtf/udaf 上到 Flink

3.2 Remote Debug(远程断点调试 UDF)

适合:UDF 真正在 TaskManager 上跑,你想"断点进去看运行时数据"。

步骤(你贴的内容我给你补成可跑的顺序):

  1. PyCharm 创建远程调试监听
  • Run -> Python Remote Debug -> + -> 选端口,比如 6789
  1. 安装 pydevd-pycharm
bash 复制代码
pip install pydevd-pycharm
  1. 在 UDF 里插入 settrace
python 复制代码
import pydevd_pycharm

pydevd_pycharm.settrace(
    'localhost',
    port=6789,
    stdoutToServer=True,
    stderrToServer=True
)
  1. 启动 PyCharm 的 Debug Server
  2. 提交/运行 Flink 作业
    断点命中后你就能看变量、堆栈、逐行执行。

实战注意点(经验坑位):

  • localhost 只有在"Python worker 能访问到你 PyCharm 所在机器"时才成立

    • 如果 Python worker 在远程机器/容器里,通常要改成你的开发机 IP,且确保端口可达
  • 分布式并行度 > 1 时,可能多个 subtask 同时尝试连 debug server

    • 初次建议把 parallelism 调成 1,先把链路跑通

4. Profiling:定位"慢到底慢在哪个函数"

官方给的是一个开关:

python 复制代码
t_env.get_config().set("python.profile.enabled", "true")

开启后,profiling 结果会周期性输出到 TaskManager 日志里。

实战建议:

  • Profiling 输出周期和你前面那套配置有关:python.fn-execution.bundle.sizepython.fn-execution.bundle.time 会影响"多久吐一次 profile"
  • 如果你 bundle 非常大,profile 可能很久才出一份;排障时可以先把 bundle 调小,让 profile 更快出现

5. 一套"排障顺序"你可以直接写进博客

  1. 先确认日志位置:用那条 python 命令定位 log 目录
  2. 先打 Client 侧日志:确认 schema、DDL、SQL 拼接、配置是否生效
  3. 再打 UDF 侧日志:在 TaskManager 日志里看数据是否符合预期
  4. 逻辑不对:上 Remote Debug 断点看真实输入输出
  5. 性能不对 :开 python.profile.enabled=true 看热点函数,再回头调 bundle/arrow/chaining/execution-mode
相关推荐
我材不敲代码12 分钟前
Python实现打包贪吃蛇游戏
开发语言·python·游戏
身如柳絮随风扬1 小时前
Java中的CAS机制详解
java·开发语言
0思必得02 小时前
[Web自动化] Selenium处理动态网页
前端·爬虫·python·selenium·自动化
韩立学长2 小时前
【开题答辩实录分享】以《基于Python的大学超市仓储信息管理系统的设计与实现》为例进行选题答辩实录分享
开发语言·python
qq_192779872 小时前
高级爬虫技巧:处理JavaScript渲染(Selenium)
jvm·数据库·python
u0109272713 小时前
使用Plotly创建交互式图表
jvm·数据库·python
爱学习的阿磊3 小时前
Python GUI开发:Tkinter入门教程
jvm·数据库·python
froginwe113 小时前
Scala 循环
开发语言
m0_706653233 小时前
C++编译期数组操作
开发语言·c++·算法
故事和你913 小时前
sdut-Java面向对象-06 继承和多态、抽象类和接口(函数题:10-18题)
java·开发语言·算法·面向对象·基础语法·继承和多态·抽象类和接口