WorkBuddy + 本地 Comfy MCP 实战:用自然语言调生成你的第一张 AI 图片

WorkBuddy + 本地 Comfy MCP 实战:用自然语言生成你的第一张 AI 图片


本系列实战教程持续更新中......

Comfy MCP 公测:把 Claude、Cursor、CodeX、Hermes 和 WorkBuddy 变成你的创意技术专家
Comfy Cloud MCP Server 抢先体验申请图文教程
WorkBuddy 接入 Comfy Cloud MCP 完整实录:从 DNS 污染到 31 个工具全部启用
在上一篇文章中,我们已经把 Comfy Cloud MCP 接入了 WorkBuddy。本篇从零开始,用一句中文提示词生成一张图片,并展示完整的 Agent 调用链路,帮助读者理解 Comfy MCP 的工作方式。


一、目标

完成一次完整的"文本 → 图像"生成:

  1. 用户用中文描述需求。
  2. WorkBuddy 自动调用 comfy MCP 工具。
  3. 在 Comfy Cloud GPU 上运行工作流。
  4. 下载并展示最终图片。

二、可用的生成工具

Comfy MCP 把复杂的 ComfyUI 工作流封装成了两类入口:

类型 示例 说明
专用 Prompt generate-image 针对常见任务预置的快捷入口
底层工具 comfy_search_templatescomfy_submit_workflow 更灵活,Agent 可自由组合

当用户说"帮我生成一张图"时,Agent 通常会选择 generate-image prompt,或走"搜索模板 → 搜索模型 → 构建工作流 → 提交 → 轮询 → 下载"的完整链路。


三、提示词示范

打开 WorkBuddy,输入:

复制代码
生成一张图片:一只穿着宇航服的猫咪漂浮在太空舱里,窗外是地球和星空,赛博朋克风格,16:9 比例,高清细节。

Agent 会解析出关键信息:

  • 主体:穿宇航服的猫咪
  • 场景:太空舱、地球、星空
  • 风格:赛博朋克
  • 比例:16:9
  • 质量:高清细节

四、Agent 内部调用链路

Agent 在后台执行的过程大致如下:

4.1 搜索模板

调用 comfy_search_templates

复制代码
query: "text to image cyberpunk cat astronaut"

如果有合适的模板,就直接复用,避免从零搭节点。

4.2 搜索模型

调用 comfy_search_models

复制代码
query: "realistic photo checkpoint"

选择合适的 checkpoint,例如 SDXL 或写实风格的模型。

4.3 构建工作流

如果没有现成模板,Agent 会构建一个标准的 ComfyUI API 工作流:

复制代码
{
  "1": {
    "inputs": {
      "ckpt_name": "realisticVision.safetensors"
    },
    "class_type": "CheckpointLoaderSimple"
  },
  "2": {
    "inputs": {
      "text": "A cat in an astronaut suit floating inside a space station, cyberpunk style, Earth and stars visible through the window, high detail, cinematic lighting",
      "clip": ["1", 0]
    },
    "class_type": "CLIPTextEncode"
  },
  "3": {
    "inputs": {
      "text": "blurry, low quality, distorted, ugly",
      "clip": ["1", 0]
    },
    "class_type": "CLIPTextEncode"
  },
  "4": {
    "inputs": {
      "width": 1344,
      "height": 768,
      "batch_size": 1
    },
    "class_type": "EmptyLatentImage"
  },
  "5": {
    "inputs": {
      "seed": 42,
      "steps": 25,
      "cfg": 7.5,
      "sampler_name": "dpmpp_2m",
      "scheduler": "karras",
      "denoise": 1.0,
      "model": ["1", 0],
      "positive": ["2", 0],
      "negative": ["3", 0],
      "latent_image": ["4", 0]
    },
    "class_type": "KSampler"
  },
  "6": {
    "inputs": {
      "samples": ["5", 0],
      "vae": ["1", 2]
    },
    "class_type": "VAEDecode"
  },
  "7": {
    "inputs": {
      "filename_prefix": "cat_astronaut",
      "images": ["6", 0]
    },
    "class_type": "SaveImage"
  }
}

注意:实际模型名称和节点 ID 以 Comfy Cloud 实时返回为准,上面是示例。

4.4 提交工作流

调用 comfy_submit_workflow

复制代码
{
  "workflow": { ... }
}

返回 prompt_id,例如 a1b2c3d4-...

4.5 轮询状态

调用 comfy_get_job_status

复制代码
{
  "prompt_id": "a1b2c3d4-..."
}

每 3 秒查询一次,直到状态为 completed

4.6 下载输出

调用 comfy_get_output

复制代码
{
  "prompt_id": "a1b2c3d4-...",
  "description": "cat_astronaut_cyberpunk"
}

返回签名下载 URL,Agent 会执行类似:

复制代码
curl -L "https://storage.googleapis.com/.../cat_astronaut.png?X-Goog-Signature=..." -o cat_astronaut.png

最后通过 WorkBuddy 的 present_files 展示图片。


五、进阶玩法:从图片到视频

如果用户对刚才的图片满意,想让它动起来,可以继续说:

复制代码
让刚才的猫宇航员动起来,做一个 3 秒的太空漂浮视频。

Agent 会:

  1. 使用 comfy_use_previous_output 把上一张图作为输入。
  2. 调用 generate-video 或搜索视频模板。
  3. 构建图生视频工作流(例如使用 LTX-Video / Wan Video)。
  4. 提交并轮询,通常耗时 30 秒到 2 分钟。
  5. 下载视频并展示。

六、常见问题

Q1:生成的图片不满意怎么办?

直接修改提示词,Agent 会重新跑工作流。也可以要求:

  • "换一个 seed 再生成一次"
  • "把风格改成吉卜力动画"
  • "把比例改成 9:16,适合短视频封面"

Q2:可以一次生成多张吗?

可以,要求 Agent 把 batch_size 改成 2 或 4,或者连续提交多个 seed 不同的工作流。

Q3:为什么有时候会用模板,有时候从零构建?

Agent 优先搜索模板。如果模板能匹配需求,就用模板;如果模板不够具体,会基于模型从零构建,以获得更精确的控制。

Q4:图生图怎么操作?

把参考图上传到 WorkBuddy,然后说:

复制代码
上传了这张人物照片,把它转换成水彩画风格。

Agent 会调用 comfy_upload_file,再用 LoadImage 节点接入 img2img 工作流。


七、总结

Comfy MCP 把 ComfyUI 的复杂节点操作完全隐藏在自然语言背后。对 WorkBuddy 用户来说,只需要:

  1. 配置好 MCP 服务器(参考上一篇)。
  2. 用清晰的中文描述需求。
  3. 等待 Agent 在云端 GPU 上执行并返回结果。

目前 Comfy Cloud 还处于 public beta,建议多尝试不同的提示词和模型组合,并通过官方反馈渠道提交体验。

以下是用 WorkBuddy + Comfy MCP 生成视频


参考链接

WorkBuddy 接入 Comfy Cloud MCP 完整实录:从 DNS 污染到 31 个工具全部启用

相关推荐
创世宇图1 小时前
【Python工程化实战】OpenTelemetry 在 Python 中的全链路追踪落地:从埋点到可视化的完整实战指南
python·分布式链路追踪·性能监控·opentelemetry·微服务可观测性
试剂界的爱马仕1 小时前
Anti-mouse PD-1 mAb (Clone RMP1-14) 与 Axitinib 小鼠实验使用方案整理汇总
大数据·人工智能·深度学习·学习
dreamread1 小时前
2026带详细解读的八字排盘App怎么选:看解释层级、AI边界和复盘价值
人工智能·软件工具·传统文化
每天三杯咖啡1 小时前
【无标题】
人工智能·技术选型·deepseek
nbtang20261 小时前
AI Agent 入门(三):Tool Use 入门 —— Function Calling 原理与实战
人工智能·ai·agent
anOnion1 小时前
Agentic 前端开发之 实时显示 AI Agent 终端输出
前端·javascript·人工智能
AI 大模型学习不踩坑1 小时前
OpenClaw 完整教程:从安装到使用(官方脚本版)
java·人工智能·神经网络·机器学习·计算机视觉·自然语言处理·openclaw
不爱记笔记2 小时前
ClaudeCode接入DeepSeek教程!防封号!
人工智能·ai·deepseek·claudecode
随风一样自由2 小时前
【前端领域】2026最新前端领域全梳理(框架/工具/AI/跨端/底层标准/就业趋势)
前端·人工智能·前端框架
新知图书2 小时前
RAG之生成技术
人工智能·agent·ai agent·智能体·langgraph