WorkBuddy + 本地 Comfy MCP 实战:用自然语言生成你的第一张 AI 图片
本系列实战教程持续更新中......
Comfy MCP 公测:把 Claude、Cursor、CodeX、Hermes 和 WorkBuddy 变成你的创意技术专家
Comfy Cloud MCP Server 抢先体验申请图文教程
WorkBuddy 接入 Comfy Cloud MCP 完整实录:从 DNS 污染到 31 个工具全部启用
在上一篇文章中,我们已经把 Comfy Cloud MCP 接入了 WorkBuddy。本篇从零开始,用一句中文提示词生成一张图片,并展示完整的 Agent 调用链路,帮助读者理解 Comfy MCP 的工作方式。


一、目标
完成一次完整的"文本 → 图像"生成:
- 用户用中文描述需求。
- WorkBuddy 自动调用
comfyMCP 工具。 - 在 Comfy Cloud GPU 上运行工作流。
- 下载并展示最终图片。
二、可用的生成工具
Comfy MCP 把复杂的 ComfyUI 工作流封装成了两类入口:
| 类型 | 示例 | 说明 |
|---|---|---|
| 专用 Prompt | generate-image |
针对常见任务预置的快捷入口 |
| 底层工具 | comfy_search_templates、comfy_submit_workflow |
更灵活,Agent 可自由组合 |
当用户说"帮我生成一张图"时,Agent 通常会选择 generate-image prompt,或走"搜索模板 → 搜索模型 → 构建工作流 → 提交 → 轮询 → 下载"的完整链路。
三、提示词示范
打开 WorkBuddy,输入:
生成一张图片:一只穿着宇航服的猫咪漂浮在太空舱里,窗外是地球和星空,赛博朋克风格,16:9 比例,高清细节。
Agent 会解析出关键信息:
- 主体:穿宇航服的猫咪
- 场景:太空舱、地球、星空
- 风格:赛博朋克
- 比例:16:9
- 质量:高清细节
四、Agent 内部调用链路
Agent 在后台执行的过程大致如下:
4.1 搜索模板
调用 comfy_search_templates:
query: "text to image cyberpunk cat astronaut"
如果有合适的模板,就直接复用,避免从零搭节点。
4.2 搜索模型
调用 comfy_search_models:
query: "realistic photo checkpoint"
选择合适的 checkpoint,例如 SDXL 或写实风格的模型。
4.3 构建工作流
如果没有现成模板,Agent 会构建一个标准的 ComfyUI API 工作流:
{
"1": {
"inputs": {
"ckpt_name": "realisticVision.safetensors"
},
"class_type": "CheckpointLoaderSimple"
},
"2": {
"inputs": {
"text": "A cat in an astronaut suit floating inside a space station, cyberpunk style, Earth and stars visible through the window, high detail, cinematic lighting",
"clip": ["1", 0]
},
"class_type": "CLIPTextEncode"
},
"3": {
"inputs": {
"text": "blurry, low quality, distorted, ugly",
"clip": ["1", 0]
},
"class_type": "CLIPTextEncode"
},
"4": {
"inputs": {
"width": 1344,
"height": 768,
"batch_size": 1
},
"class_type": "EmptyLatentImage"
},
"5": {
"inputs": {
"seed": 42,
"steps": 25,
"cfg": 7.5,
"sampler_name": "dpmpp_2m",
"scheduler": "karras",
"denoise": 1.0,
"model": ["1", 0],
"positive": ["2", 0],
"negative": ["3", 0],
"latent_image": ["4", 0]
},
"class_type": "KSampler"
},
"6": {
"inputs": {
"samples": ["5", 0],
"vae": ["1", 2]
},
"class_type": "VAEDecode"
},
"7": {
"inputs": {
"filename_prefix": "cat_astronaut",
"images": ["6", 0]
},
"class_type": "SaveImage"
}
}
注意:实际模型名称和节点 ID 以 Comfy Cloud 实时返回为准,上面是示例。
4.4 提交工作流
调用 comfy_submit_workflow:
{
"workflow": { ... }
}
返回 prompt_id,例如 a1b2c3d4-...。
4.5 轮询状态
调用 comfy_get_job_status:
{
"prompt_id": "a1b2c3d4-..."
}
每 3 秒查询一次,直到状态为 completed。
4.6 下载输出
调用 comfy_get_output:
{
"prompt_id": "a1b2c3d4-...",
"description": "cat_astronaut_cyberpunk"
}
返回签名下载 URL,Agent 会执行类似:
curl -L "https://storage.googleapis.com/.../cat_astronaut.png?X-Goog-Signature=..." -o cat_astronaut.png
最后通过 WorkBuddy 的 present_files 展示图片。

五、进阶玩法:从图片到视频
如果用户对刚才的图片满意,想让它动起来,可以继续说:
让刚才的猫宇航员动起来,做一个 3 秒的太空漂浮视频。
Agent 会:
- 使用
comfy_use_previous_output把上一张图作为输入。 - 调用
generate-video或搜索视频模板。 - 构建图生视频工作流(例如使用 LTX-Video / Wan Video)。
- 提交并轮询,通常耗时 30 秒到 2 分钟。
- 下载视频并展示。
六、常见问题
Q1:生成的图片不满意怎么办?
直接修改提示词,Agent 会重新跑工作流。也可以要求:
- "换一个 seed 再生成一次"
- "把风格改成吉卜力动画"
- "把比例改成 9:16,适合短视频封面"
Q2:可以一次生成多张吗?
可以,要求 Agent 把 batch_size 改成 2 或 4,或者连续提交多个 seed 不同的工作流。
Q3:为什么有时候会用模板,有时候从零构建?
Agent 优先搜索模板。如果模板能匹配需求,就用模板;如果模板不够具体,会基于模型从零构建,以获得更精确的控制。
Q4:图生图怎么操作?
把参考图上传到 WorkBuddy,然后说:
上传了这张人物照片,把它转换成水彩画风格。
Agent 会调用 comfy_upload_file,再用 LoadImage 节点接入 img2img 工作流。
七、总结
Comfy MCP 把 ComfyUI 的复杂节点操作完全隐藏在自然语言背后。对 WorkBuddy 用户来说,只需要:
- 配置好 MCP 服务器(参考上一篇)。
- 用清晰的中文描述需求。
- 等待 Agent 在云端 GPU 上执行并返回结果。
目前 Comfy Cloud 还处于 public beta,建议多尝试不同的提示词和模型组合,并通过官方反馈渠道提交体验。
以下是用 WorkBuddy + Comfy MCP 生成视频

参考链接
- Comfy Cloud MCP 文档:https://docs.comfy.org/agent-tools/cloud
- WorkBuddy 配置指南:见本系列上一篇《WorkBuddy 接入 Comfy Cloud MCP 完整实录》