ComfyUI秋叶整合包安装JoyCaption

ComfyUI继承了开源软件的光荣传统,装点插件真的很不容易。

今天(2026/2/7)来讲讲装JoyCaption这个插件的经历。这个插件的作用是从图片反推出AI生图的提示词。

第一步很简单

使用秋叶整合包从ComfyUI Manager的插件列表里找到它,进行安装。

第二步下载模型

按照 https://github.com/1038lab/ComfyUI-JoyCaption 里的说法,有一个llama-joycaption-beta-one-llava-mmproj-model-f16模型是必须的。放到ComfyUI/Models/LLM/GGUF目录下。

llama-joycaption-beta-one-llava-mmproj-model-f16模型 是 多模态投影层,负责将图片转换为语言模型能理解的特征向量。没有它,模型"看不到"图片,只能文本生成。

其中:

mmproj = Multi-Modal Projection

GGUF 是 GPT-Generated Unified Format 的缩写,是一种专为大型语言模型(LLM)设计的量化模型格式。它由 llama.cpp 项目开发,旨在让大模型能在消费级硬件(尤其是 CPU 和普通显卡)上高效运行。

除了这个多模态投影层,大语言模型则有两个选择,

一个是标准模型:

另一个选择是下载GGUF的大语言模型:

标准模型是若干个safetensors文件,下载以后还要合并,很麻烦。此外从大小和效果上,都推荐安装GGUF模型,根据你的显存大小选一个即可。

第三步使用

启动ComfyUI,你会在AILab分类下找到5个JoyCaption Node:

但是问题来了,你刚才下载的GGUF模型,而这几个默认Node,是给标准模型用的。

给GGUF模型用的Node,叫JoyCaption GGUF。目前找不到。磨难开始。

第四步安装llama-cpp-python

在JoyCaption的目录(ComfyUI\custom_nodes\ComfyUI-JoyCaption)里找到Readme文件,其实里面写了,要用GGUF的大语言模型,必须安装llama-cpp-python(llama.cpp 项目催生了 GGUF 格式,而 llama-cpp-python 是它在 Python 上的封装。),且有两个选项:

安装过程会遇到两个坑。

先提一句,最完美的情况是你能在网上找到你CUDA版本对应的预编译的llama-cpp-python wheel包(比如https://github.com/dougeeai/llama-cpp-python-wheels)。那会是最方便的,直接装wheel包,可以避开下面两个坑。

一号坑:

安装过程发生如下报错:

使用编译的方式安装的前提是你电脑有cmake,即需要安装 C++ 编译环境。

Windows可以从这里1下载:https://visualstudio.microsoft.com/visual-cpp-build-tools/

最小化安装选择:"使用 C++ 的桌面开发" -> CMake工具 + VS 2022 C++ x64/x86 生成工具。

安装后重启电脑。

二号坑:

这个问题和秋叶整合包有些关系,秋叶整合包中只有Cuda的运行时,没有编译环境(CUDA Toolkit)。

有两种解决办法,

  1. 你自己再安装一个CUDA Toolkit,当然版本要和秋叶包保持一致。

  2. 强制使用CPU模式进行编译,修改llama_cpp_install.py文件,强行指定has_gpu=False

注意使用CPU模式后,JoyCaption GGUF生成提示词的时间比GPU要长很多,我12代I5 CPU对于一张4K的图片生成提示词要2分钟。供参考。

重启ComfyUI后,你就能找到:

使用截图:

相关推荐
YJlio7 天前
OpenClaw v2026.4.5 更新解析:视频/音乐生成、ComfyUI 工作流、多语言控制台、Memory Dreaming 与升级避坑
memory·自动化运维·comfyui·视频生成·版本更新·ai agent·openclaw
love530love14 天前
ComfyUI MediaPipe 终极填坑:解决 incompatible function arguments 报错,基于代理模式的猴子补丁升级版
人工智能·windows·comfyui·mediapipe·猴子补丁·monkey patch·python 3.12
love530love14 天前
Python 3.12 解决 MediaPipe “no attribute ‘solutions‘” 终极方案:基于全版本硬核实测的避坑指南
开发语言·人工智能·windows·python·comfyui·mediapipe·solutions
Rubin智造社16 天前
04月27日AI每日参考:Sora正式关闭,小米机器人开源,DeepSeek再降价
comfyui·github copilot·cohere·sora关闭·aleph alpha·deepseek降价·小米机器人
阿钱真强道17 天前
23 ComfyUI 实战:AnimateDiff + OpenPose Walking 姿态驱动视频生成
openpose·animatediff·controlnet·comfyui·姿态·walking·动作控制
阿钱真强道18 天前
21 ComfyUI 实战:IP-Adapter + ControlNet 实现人物表情编辑,为什么降权重后更容易“笑出来”
aigc·stable-diffusion·controlnet·comfyui·softedge·ip-adapter·人物表情编辑
Rubin智造社18 天前
04月25日AI每日参考:谷歌豪掷400亿押注Anthropic,DeepSeek V4横空出世
大数据·人工智能·物联网·comfyui·deepseek v4·谷歌anthropic投资·meta亚马逊芯片
阿钱真强道19 天前
20 ComfyUI 实战:用 ControlNet 实现人物表情编辑,让人物“笑起来”的工作流解析
aigc·stable-diffusion·controlnet·comfyui·softedge·ip-adapter·人物表情编辑
阿钱真强道19 天前
19 基于 ComfyUI 工作流学习 AnimateDiff:单图生成视频的入门实践与问题分析
aigc·animatediff·stable-diffusion·comfyui·视频生成·图生视频·单图转视频
阿钱真强道20 天前
17 ComfyUI AnimateDiff 新手教程:最小文生视频工作流搭建与原理解析
animatediff·文生视频·stable-diffusion·comfyui·新手入门·工作流教程