[ComfyUI]Florence提示词反推、目标检测

文章目录

1.模型介绍

Florence-2是一个由微软Azure AI团队推出的多功能视觉模型,它在AI领域的独特之处主要体现在以下几个方面:
多功能性 :Florence-2能够执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。这种多功能性使得它能够处理各种视觉任务,而不需要针对特定任务训练不同的模型。
统一的表示方法 :Florence-2采用了基于prompt的统一表示方法,使其能够广泛适用于各种计算机视觉和视觉语言任务这种统一的范式增强了模型的通用性和灵活性。
序列到序列学习 :Florence-2基于Transformer架构,并采用序列到序列的学习方法,编码器将图像转换为序列表示,解码器再将这些表示转换为文本输出这种设计提高了模型处理任务的灵活性。
大规模数据集训 练:Florence-2训练使用包含1.26亿张图像和54亿个标注的超大数据集FLD-5B,结合自动化图像标注技术和模型迭代,确保数据的高质量和多样性。
多任务学习 :Florence-2通过多任务学习,同时关注底层细节和高层次语义理解,使得模型能够更全面、深入地理解视觉信息。
开源和可访问性:Florence-2的权重和代码已经在开源平台Hugging Face上公开,任何人都可以访问和使用。

这些特点使得Florence-2在AI领域,尤其是在视觉任务处理方面,提供了一个强大而灵活的工具

参考资料
Florence-2:小模型,大能量,提示词反推、文字识别、对象检测,指定蒙版样样精通,一个模型搞定所有!

2.模型部署

需要安装的模型权重

这是最基本的Florence-2-base模型,下载里面的所有文件到"models/LLM/Florence-2-base"文件夹
Florence-2-base

还有其他几个模型也可以下
microsoft/Florence-2-base-ft
Florence-2-large
microsoft/Florence-2-large-ft

部署报错
①FlashAttention2 用不了

FlashAttention2 has been toggled on, but it cannot be used due to the following errorjavascript:void(0): the package flash_attn seems to be not installed. Please refer to the documentation of https://huggingface.co/docs/transformers/perf_infer_gpu_one#flashattention-2 to install Flash Attention 2.

参考Error: FlashAttention2 has been toggled on, but it cannot be used Windows 11 #

直接把注意力换为sdpa不要用flash_attention_2了

3.一些测试结果

①目标检测

可以看到目标检测的效果还是可以的

②图生文

In this picture we can see a person smiling and in the background it is dark

In this image we can see cartoons. In the background of the image there are trees and sky.

这个可以做很多的任务

相关推荐
冬奇Lab19 小时前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab19 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm
IT_陈寒1 天前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端
jooloo1 天前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户5191495848451 天前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
小小杨树1 天前
读懂色彩:拍照调色不再难
算法·计算机视觉·配色
用户5191495848451 天前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户018349301691 天前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能