获取Flink作业在HDFS上保存的最新的savepoint文件路径

公子乂2024-03-03 17:54

获取Flink作业在HDFS上保存的最新的savepoint文件路径

代码：

c 复制代码

savepoint=$(hadoop fs -ls hdfs://xxxApp/flink-checkpoints/xxxflinkjob/*/chk-*/_metadata |grep -vw Found |sort -k6,7 -r |head -n 1 |awk '{print $8}')

上面的代码是一个Shell命令，用于获取Flink作业在HDFS上保存的最新的savepoint文件路径。让我们逐步解释这段代码：

savepoint=$(...) ：这是一个Shell变量赋值语句，将命令的输出赋值给变量 savepoint 。

hadoop fs -ls hdfs://xxxApp/flink-checkpoints/xxxflinkjob//chk- /_metadata ：这部分命令使用 hadoop fs -ls 列出指定HDFS路径下的文件和目录，路径为 hdfs://xxxApp/flink-checkpoints/xxxflinkjob//chk-/_metadata 。这个路径通常是Flink作业的检查点目录，其中包含savepoint文件的元数据信息。

grep -vw Found ： grep 命令用于过滤输出， -v 选项表示显示不匹配的行， -w 选项表示精确匹配整个单词。这里过滤掉包含"Found"的行。

sort -k6,7 -r ： sort 命令按照第6和第7列的内容进行逆序排序，以便找到最新的savepoint文件。

head -n 1 ： head 命令用于显示输出的前n行，这里只显示排序后的第一行，即最新的savepoint文件。

awk '{print $8}' ： awk 命令用于处理文本数据，这里提取排序后结果的第8列，即最新的savepoint文件的路径。

综合起来，这段代码的作用是获取Flink作业在HDFS上保存的最新savepoint文件的路径，并将路径赋值给变量 savepoint 。