继续AI编排实战：带截图的连麦切片文章生成

相比于前面的单纯通过声音洗新闻稿件的文字内容，本次我们提升了一定的难度，面向连麦切片场景。

你怎么知道我喜欢看听勇哥和大冰的连麦？

那么，我们要处理的核心难点包括：

区分不同的发言人
最好能配一些连麦截图到文章里

先看看成品效果：

1. 架构总览

这套工作流通过并行处理极大提高了效率：

输入端：支持 YouTube URL 下载或本地视频文件。
音频线：提取音频 -> Deepgram (语音转文字 + 角色分离) -> 文本清洗。
视频线：智能截图 (FFmpeg) -> Qshell (上传七牛云) -> 生成图片链接。
汇聚端：文本 + 图片链接 -> DeepSeek (AI 深度改写与排版) -> 本地 Markdown 文件。

2. 环境准备

可以参考我之前的文章，基于node 16构建一个 debian 镜像，并内置 yt-dlp 和 FFmpeg。除此之外，需要安装一个 OSS 工具，因为我用的七牛云，所以是 Qshell，这个根据自己的情况定制就行。

以下是我的 Dockerfile，仅供参考吧：

dockerfile 复制代码

FROM node:20-bookworm

# 1. 接收构建参数
ARG HTTP_PROXY
ARG HTTPS_PROXY

USER root

# 2. 【系统层代理】
ENV http_proxy=${HTTP_PROXY}
ENV https_proxy=${HTTPS_PROXY}

# 安装系统工具 (Debian环境)
# 增加了 unzip，虽然 tar 也可以，但 unzip 处理某些 zip 包更方便，不过 qshell 是 tar.gz，这里只用 tar 即可
RUN apt-get update && \
    apt-get install -y python3 python3-pip ffmpeg wget && \
    rm -rf /var/lib/apt/lists/*

# -------------------------------------------------------
# 2.5 安装工具集：yt-dlp 和 Qshell (七牛命令行)
# -------------------------------------------------------
# 安装 yt-dlp
RUN wget https://github.com/yt-dlp/yt-dlp/releases/latest/download/yt-dlp -O /usr/local/bin/yt-dlp && \
    chmod a+rx /usr/local/bin/yt-dlp

# 安装 Qshell (添加到这里)
# Qshell v2.13.0 是目前比较稳定的版本
RUN wget https://devtools.qiniu.com/qshell-v2.13.0-linux-amd64.tar.gz -O /tmp/qshell.tar.gz && \
    tar -zxvf /tmp/qshell.tar.gz -C /tmp && \
    # 注意：解压后的文件夹名称通常包含版本号，移动并重命名为 qshell
    mv /tmp/qshell /usr/local/bin/qshell && \
    chmod +x /usr/local/bin/qshell && \
    rm /tmp/qshell.tar.gz
# -------------------------------------------------------

# 3. 【NPM 层代理】安装 n8n
RUN npm config set proxy ${HTTP_PROXY} && \
    npm config set https-proxy ${HTTPS_PROXY} && \
    npm install -g n8n && \
    npm config delete proxy && \
    npm config delete https-proxy

# 4. 权限与清理
RUN mkdir -p /home/node/.n8n /files && \
    chown -R node:node /home/node/.n8n /files

# 清理环境变量
ENV http_proxy=""
ENV https_proxy=""

USER node
ENTRYPOINT ["n8n"]

启动命令 (在 docker-compose.yml 所在目录):

bash 复制代码

docker-compose up -d --build

3. 核心节点配置详解

看看节点布置吧。

3.1 截图节点 (Execute Command)

首先是截图，相比于新闻类的视频，连麦视频对于截图的精准性要求低很多。

以"大冰"的连麦视频为例，反正截来截去就是大冰一张瘦脸怼在哪里，所以啥时候截图问题不大，关键有图效果就会好很多。

不使用固定秒数，而是基于视频时长的 33% 和 66% 处截图，并加上 日期时间戳 防止文件名冲突。

Command Shell 脚本:

bash 复制代码

#!/bin/sh

# ---------------- 配置区域 ----------------
VIDEO_PATH="{{ $json.full_path }}"
FOLDER_NAME="{{ $json.clean_name }}"

# 1. 确定输出目录
PARENT_DIR=$(dirname "$VIDEO_PATH")
OUTPUT_DIR="$PARENT_DIR/$FOLDER_NAME"
mkdir -p "$OUTPUT_DIR"

# 2. 获取视频时长 & 计算切入点
DURATION=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$VIDEO_PATH")
T1=$(awk "BEGIN {print $DURATION * 0.33}")
T2=$(awk "BEGIN {print $DURATION * 0.66}")

# 3. 生成当前系统时间戳 (防止文件名重复)
# 格式: 20250114-103005
NOW_STR=$(date +"%Y%m%d-%H%M%S")

# 4. 定义文件名 (带上序号)
IMG1="$OUTPUT_DIR/${NOW_STR}-1.jpg"
IMG2="$OUTPUT_DIR/${NOW_STR}-2.jpg"

# 5. 执行极速截图 (-ss 放在 -i 之前)
ffmpeg -ss "$T1" -i "$VIDEO_PATH" -frames:v 1 -q:v 2 -y "$IMG1" > /dev/null 2>&1
ffmpeg -ss "$T2" -i "$VIDEO_PATH" -frames:v 1 -q:v 2 -y "$IMG2" > /dev/null 2>&1

# 6. 输出 JSON 给后续节点
echo "{\"img1_path\": \"$IMG1\", \"img2_path\": \"$IMG2\", \"folder_path\": \"$OUTPUT_DIR\", \"clean_name\": \"$FOLDER_NAME\"}"

3.2 上传节点 (Execute Command - Qshell)

直接调用七牛云 CLI 上传文件夹，比 n8n 原生 S3 节点更稳定。

Command Shell 脚本:

bash 复制代码

#!/bin/sh

# -------- 配置区域 --------
AK="你的AccessKey"
SK="你的SecretKey"
BUCKET="你的存储桶名称"
DOMAIN="https://你的域名" # 注意：末尾不要带斜杠
# -------------------------

LOCAL_FOLDER="{{ JSON.parse($json.stdout).folder_path }}"

# 1. 登录七牛 (清理旧配置以防报错)
rm -rf ~/.qshell/account.db > /dev/null 2>&1
qshell account "$AK" "$SK" default

# 2. 遍历上传并生成链接
IMG_URLS=""
for file in "$LOCAL_FOLDER"/*.jpg; do
    if [ -f "$file" ]; then
        FILENAME=$(basename "$file")
        # 构造云端路径: pic/n8n/文件夹名/文件名
        KEY="pic/n8n/{{ JSON.parse($json.stdout).clean_name }}/$FILENAME"
        
        qshell fput "$BUCKET" "$KEY" "$file" --overwrite > /dev/null 2>&1
        IMG_URLS="$IMG_URLS $DOMAIN/$KEY"
    fi
done

# 3. 输出 URL 列表
echo "$IMG_URLS"

3.3 音频处理 (Deepgram)

Deepgram 是目前最强的声音处理AI厂商，关键还能白嫖200刀的额度。比如说连麦场景，它可以轻松分辨出不同发言人的声音。

这对我们的场景来说非常关键。

Method: POST
URL : https://api.deepgram.com/v1/listen?model=nova-2&language=zh&diarize=true
关键点 : 必须开启 diarize=true 才能区分不同说话人。

3.4 数据汇聚 (Merge Node - 关键)

为了让 DeepSeek 同时拿到"文本"和"图片"，必须正确设置 Merge 节点。

Mode (模式) : Combine (合并)
Combine By (合并方式) : Merge By Position (按位置合并)
效果: 将上游两条线的数据合并为同一个 JSON 对象。

3.5 AI 写作 (DeepSeek Chat Model)

这是赋予文章灵魂的一步。

System Prompt: 设定为资深科技主笔。
User Prompt (Expression 模式):

javascript 复制代码

【对话素材】
{{ $json.text }} 

【可用配图列表】
{{ $json.markdown_list }}
(共 {{ $json.count }} 张图片)

【任务】
请基于以上对话素材撰写文章，并遵循以下规则：
1. **智能配图**：你拥有 {{ $json.count }} 张图片的支配权。请根据文章篇幅和叙事节奏，将这些图片**均匀地**插入到文中（例如：文章前1/3处插入第一张，后1/3处插入第二张）。必须原样输出Markdown图片链接。
2. **角色识别**：
   - 核心观点输出者是"{{ $('表单').item.json.player1 }}"（例如：大冰）。
   - 寻求建议者是"{{ $('表单').item.json.player2 }}"（例如：连麦人）。
   - 请识别文本中的 [发言人0] 和 [发言人1] 分别对应谁，并在文章中正确称呼，不要使用"发言人0"这种代号。
3. **风格要求**：拒绝流水账，使用深度分析或故事叙述风格，自动提炼小标题。

4. 使用说明

启动工作流 ：点击 n8n 界面上的 Test Workflow 或使用 Webhook。
填写表单 ：
- Mode : 选择 download (下载 YouTube) 或 local_video (处理 Docker 目录下的文件)。
- URL: 视频链接或文件名。
- 核心角色: 填入"大冰"或"罗翔"等。
- 对话人: 填入"连麦观众"或"学生"等。
查看结果 ：
- 运行结束后，在 Docker 挂载的 /files 目录下会生成一个 视频文件名__对话.md 文件。
- 文件内已自动排版并插入了七牛云的图片链接。

5. 常见问题排查

Qshell 报错 executable file not found :
- 说明 Docker 镜像没构建好。请确保运行了 docker-compose up -d --build。
DeepSeek 读不到文本或图片 :
- 检查 Merge 节点是否设置为了 Combine + Merge By Position。这是最常见的错误点。
文件无法写入 :
- 检查 Docker 挂载目录的权限。宿主机上执行 chmod -R 777 ./local_files 解决权限问题。