摘要: Florence 是微软推出的轻量级视觉语言模型,显存仅需 1-2G,运行效率高,反推精细度略逊于 Joy 模型。它可实现提示词反推、目标检测、OCR、区域分割等多种功能。使用时需先安装对应插件,将模型放入 ComfyUI 的 LLM 文件夹。核心节点为 "Florence 执行",含 caption 等多种任务参数,工作流搭建可将该节点的 caption 输出连接到 CLIP 文本编码器的文本输入。
Florence是在Joy之后由微软推出的一款基础视觉语言模型,它在其较小的尺寸下保持了与接近Joy模型的提示词反推能力,是一个非常轻量级的反推模型,内存仅需要1~2G左右即可,效率更高。与JOY对比,JOY模型反推效果更精细,Florence模型的优势是速度更快,占用显存更低.
Florence能够根据图像生成描述性文本,适用于自动生成图片说明等场景,它不仅仅适用于提示词的反推,还可以进行目标检测,识别图像中的物体并标注其位置,用于遮罩蒙版等。另外,Florence还可以应用于OCR(光学字符识别)、区域分割、视觉问答(VQA)等图像相关领域。
官方地址:
https://github.com/kijai/ComfyUI-Florence2
1 插件安装
1.1 插件安装
打开管理器,搜索Florence,按图示选择,点击"安装",重启comfyUI。

也可下载文件,安装至..\ComfyUI\custom_nodes\comfyui-florence2文件夹

2 模型下载
官方地址网页下方提供了模型安装链接,如下图所示:
模型下载后放入:..\ComfyUI\models\LLM文件夹。

模型文件较大,学习阶段可先下载base-ft、large-ft、Flux-large三个模型(ft模型是优化模型)。


3 核心节点
3.1 核心节点
核心节点是"Florence执行"
新建路径:新建节点→Florence2→Florence执行

3.2 节点参数
Florence执行节点中,"任务"栏共提供三种提示词反推功能:caption、detailed_caption、more_detailed_caption ,它们的精细度越来越高,使用时根据需要选择一种即可;同时,模型加载器中,选择不同的模型,精细度也会随之变化。

模型加载器中,精度有fp16、bf16及fp32三种,实测三者差距并不明显,默认fp16即可。

模型加载器中,注意力选择sdpa,可以优化推理期间的模型参数;

下面来介绍下Florence2执行节点中的任务栏,除了提示词反推功能所需的三种caption外的其他任务类型:

region_caption(区域描述):简单的图像内容对象检测,可以识别图像中基本元素并进行描述;
dense_region_caption(密集区域描述):较region_caption更详细的检测和描述,对图像元素内容的名称、性质等进行更详细的描述;
region_proposal(区域检测):是不带标题的对象检测,仅检测元素,不描述内容;
caption_to_phrase_grounding(字幕到短语定位):是通过提示词来检索图像内容,在节点文本框中输入要标记的内容文本,即可在图像中进行检索及标注;
referring_expression_segmentation(指示性表达分割):是通过提示词来检索图像内容并生成蒙版,在节点文本框中输入文本,即可在图像中进行检索该内容范围并生成蒙版;
orc(光学字符识别)和orc_with_region(带区域的光学字符识别):都是从图像中提取文本信息(仅限英文),orc是基础版,可以将图片中的文字转换为可编辑的文本格式;orc_with_region不仅识别图片中的文字,还会告知文字在图片中的具体位置;
docVQA(文档问答咨询):根据检测图像内容及输入的问题,回答图像相关的问题。(模型选择器需要选择带有"VQA"标识的模型)
prompt_gen_tags(生成词组形式的提示词):生成词组、短语形式的反推提示词;(模型选择器需要选择带有"PromptGen"标识的模型)
Prompt_gen_mixed_caption(生成混合提示词):同时生成带有词组及clip语句的提示词,细节描述详细。(模型选择器需要选择带有"PromptGen"标识的模型)
4 工作流
4.1 基础节点组合
Florence反推基本工作样式

4.2 完整工作流应用
将 Florence2 执行节点的"caption"连接到正向提示词 CLIP 文本编码器的文本节点上即可。(clip文本编码器需将文本转为输入)

附件:comfyUI基础整合包,包含秋叶版绘世启动器及comfyui官方版共两个版本,适合Windows系统使用。网盘内压缩文件解压密码VX-huaqs123,为防止下载失败,可先转存再下载。软件均为整合包形式,无需安装,下载后打开文件夹,点击运行图标即可使用。
夸克网盘链接:https://pan.quark.cn/s/f445b7325b47
本节内容所涉及模型下载:https://pan.quark.cn/s/5805f9ddd24d
欢迎正在学习comfyui等ai技术的伙伴VX加 huaqs123 进入学习小组。在这里大家共同学习comfyui的基础知识、最新模型与工作流、行业前沿信息等,也可以讨论comfyui商业落地的思路与方向。 欢迎感兴趣的小伙伴,群共享资料会分享博主自用的comfyui整合包(已安装超全节点与必备模型)、基础学习资料、工作流等资源......

致敬每一位在路上的学习者,你我共勉!Ai技术发展迅速,学习comfyUI是紧跟时代的第一步,促进商业落地并创造价值是我们学习的最终目标。
------画青山Ai学习专栏---------------------------------------------------------------------------------------------
零基础学Webui:
https://blog.csdn.net/vip_zgx888/category_13020854.html
Comfyui基础学习与实操:
https://blog.csdn.net/vip_zgx888/category_13006170.html
comfyui功能精进与探索:
https://blog.csdn.net/vip_zgx888/category_13005478.html
系列专栏持续更新中,欢迎订阅关注,共同学习,共同进步!