ComfyUI秋叶整合包安装JoyCaption

ComfyUI继承了开源软件的光荣传统,装点插件真的很不容易。

今天(2026/2/7)来讲讲装JoyCaption这个插件的经历。这个插件的作用是从图片反推出AI生图的提示词。

第一步很简单

使用秋叶整合包从ComfyUI Manager的插件列表里找到它,进行安装。

第二步下载模型

按照 https://github.com/1038lab/ComfyUI-JoyCaption 里的说法,有一个llama-joycaption-beta-one-llava-mmproj-model-f16模型是必须的。放到ComfyUI/Models/LLM/GGUF目录下。

llama-joycaption-beta-one-llava-mmproj-model-f16模型 是 多模态投影层,负责将图片转换为语言模型能理解的特征向量。没有它,模型"看不到"图片,只能文本生成。

其中:

mmproj = Multi-Modal Projection

GGUF 是 GPT-Generated Unified Format 的缩写,是一种专为大型语言模型(LLM)设计的量化模型格式。它由 llama.cpp 项目开发,旨在让大模型能在消费级硬件(尤其是 CPU 和普通显卡)上高效运行。

除了这个多模态投影层,大语言模型则有两个选择,

一个是标准模型:

另一个选择是下载GGUF的大语言模型:

标准模型是若干个safetensors文件,下载以后还要合并,很麻烦。此外从大小和效果上,都推荐安装GGUF模型,根据你的显存大小选一个即可。

第三步使用

启动ComfyUI,你会在AILab分类下找到5个JoyCaption Node:

但是问题来了,你刚才下载的GGUF模型,而这几个默认Node,是给标准模型用的。

给GGUF模型用的Node,叫JoyCaption GGUF。目前找不到。磨难开始。

第四步安装llama-cpp-python

在JoyCaption的目录(ComfyUI\custom_nodes\ComfyUI-JoyCaption)里找到Readme文件,其实里面写了,要用GGUF的大语言模型,必须安装llama-cpp-python(llama.cpp 项目催生了 GGUF 格式,而 llama-cpp-python 是它在 Python 上的封装。),且有两个选项:

安装过程会遇到两个坑。

先提一句,最完美的情况是你能在网上找到你CUDA版本对应的预编译的llama-cpp-python wheel包(比如https://github.com/dougeeai/llama-cpp-python-wheels)。那会是最方便的,直接装wheel包,可以避开下面两个坑。

一号坑:

安装过程发生如下报错:

使用编译的方式安装的前提是你电脑有cmake,即需要安装 C++ 编译环境。

Windows可以从这里1下载:https://visualstudio.microsoft.com/visual-cpp-build-tools/

最小化安装选择:"使用 C++ 的桌面开发" -> CMake工具 + VS 2022 C++ x64/x86 生成工具。

安装后重启电脑。

二号坑:

这个问题和秋叶整合包有些关系,秋叶整合包中只有Cuda的运行时,没有编译环境(CUDA Toolkit)。

有两种解决办法,

  1. 你自己再安装一个CUDA Toolkit,当然版本要和秋叶包保持一致。

  2. 强制使用CPU模式进行编译,修改llama_cpp_install.py文件,强行指定has_gpu=False

注意使用CPU模式后,JoyCaption GGUF生成提示词的时间比GPU要长很多,我12代I5 CPU对于一张4K的图片生成提示词要2分钟。供参考。

重启ComfyUI后,你就能找到:

使用截图:

相关推荐
阿钱真强道2 天前
14 ComfyUI 实战:使用 Depth Anything V2 + ControlNet 实现高一致性人像生成
sdxl·controlnet·comfyui·depth anything·工作流实战·深度预处理
阿钱真强道4 天前
10 ComfyUI IPAdapter 实战:上传一张参考图,轻松实现人物一致性控制
aigc·sdxl·stable-diffusion·一致性·comfyui·ipadapter·人物生成
阿钱真强道10 天前
05 ComfyUI + SVD 系列(三):最小图生视频工作流拆解——节点含义、输入输出、参数作用与核心实验
python·aigc·stable-diffusion·svd·comfyui·工作流·图生视频
阿钱真强道10 天前
04 ComfyUI + SVD 系列(二):最小工作流实现图片生成视频(24 帧 + mp4 合成)
aigc·stable-diffusion·svd·comfyui·图生视频·rtx4090d
阿钱真强道10 天前
03 ComfyUI + SVD 系列(一):Ubuntu 24 + RTX 4090D 环境安装与启动验证
aigc·stable-diffusion·svd·comfyui·图生视频·rtx4090
若苗瞬13 天前
过去换脸现在换头?ComfyUI+LTX2.3+BFS In Context LoRA
comfyui·swap·face·best·ltx
AI视觉爱好者19 天前
ComfyUI 中文提示词:可视化选填,一键生成专属提示词
prompt·文生图·comfyui·中文提示词
YoanAILab1 个月前
AI 推理系统架构怎么选?图像生成与文本生成的分层选型思路(ComfyUI / Dify / vLLM / Triton)
人工智能·系统架构·comfyui·dify·vllm·ai工程
1204157137 肖哥1 个月前
ComfyUI 图片高清放大的正确顺序
comfyui
yy我不解释1 个月前
关于comfyui的mmaudio音频生成插件时时间不一致问题(三)
开发语言·python·ai作画·音视频·comfyui