[ComfyUI]Florence提示词反推、目标检测

文章目录

1.模型介绍

Florence-2是一个由微软Azure AI团队推出的多功能视觉模型,它在AI领域的独特之处主要体现在以下几个方面:
多功能性 :Florence-2能够执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。这种多功能性使得它能够处理各种视觉任务,而不需要针对特定任务训练不同的模型。
统一的表示方法 :Florence-2采用了基于prompt的统一表示方法,使其能够广泛适用于各种计算机视觉和视觉语言任务这种统一的范式增强了模型的通用性和灵活性。
序列到序列学习 :Florence-2基于Transformer架构,并采用序列到序列的学习方法,编码器将图像转换为序列表示,解码器再将这些表示转换为文本输出这种设计提高了模型处理任务的灵活性。
大规模数据集训 练:Florence-2训练使用包含1.26亿张图像和54亿个标注的超大数据集FLD-5B,结合自动化图像标注技术和模型迭代,确保数据的高质量和多样性。
多任务学习 :Florence-2通过多任务学习,同时关注底层细节和高层次语义理解,使得模型能够更全面、深入地理解视觉信息。
开源和可访问性:Florence-2的权重和代码已经在开源平台Hugging Face上公开,任何人都可以访问和使用。

这些特点使得Florence-2在AI领域,尤其是在视觉任务处理方面,提供了一个强大而灵活的工具

参考资料
Florence-2:小模型,大能量,提示词反推、文字识别、对象检测,指定蒙版样样精通,一个模型搞定所有!

2.模型部署

需要安装的模型权重

这是最基本的Florence-2-base模型,下载里面的所有文件到"models/LLM/Florence-2-base"文件夹
Florence-2-base

还有其他几个模型也可以下
microsoft/Florence-2-base-ft
Florence-2-large
microsoft/Florence-2-large-ft

部署报错
①FlashAttention2 用不了

FlashAttention2 has been toggled on, but it cannot be used due to the following errorjavascript:void(0): the package flash_attn seems to be not installed. Please refer to the documentation of https://huggingface.co/docs/transformers/perf_infer_gpu_one#flashattention-2 to install Flash Attention 2.

参考Error: FlashAttention2 has been toggled on, but it cannot be used [Windows 11] #

直接把注意力换为sdpa不要用flash_attention_2了

3.一些测试结果

①目标检测

可以看到目标检测的效果还是可以的

②图生文

In this picture we can see a person smiling and in the background it is dark

In this image we can see cartoons. In the background of the image there are trees and sky.

这个可以做很多的任务

相关推荐
救救孩子把4 分钟前
2-机器学习与大模型开发数学教程-第0章 预备知识-0-2 数列与级数(收敛性、幂级数)
人工智能·数学·机器学习
yzx9910139 分钟前
接口协议全解析:从HTTP到gRPC,如何选择适合你的通信方案?
网络·人工智能·网络协议·flask·pygame
sali-tec14 分钟前
C# 基于halcon的视觉工作流-章34-环状测量
开发语言·图像处理·算法·计算机视觉·c#
只说证事1 小时前
2025年数字公共治理专业重点学什么内容?(详细指南)
人工智能
LeeZhao@1 小时前
【AI推理部署】Docker篇04—Docker自动构建镜像
人工智能·docker·容器
程思扬1 小时前
利用JSONCrack与cpolar提升数据可视化及跨团队协作效率
网络·人工智能·经验分享·docker·信息可视化·容器·架构
南方者1 小时前
它的 AI Agent 凭什么能擦出火花?!
人工智能·ai编程
心动啊1211 小时前
深度神经网络1——梯度问题+标签数不够问题
人工智能·神经网络·dnn
南方者1 小时前
基于Amazon Bedrock Agent 的两个服务示例的完整流程与详细内容,包含技术架构、实现细节、交互逻辑及扩展能力
人工智能·ai编程·敏捷开发
小王爱学人工智能1 小时前
OpenCV一些进阶操作
人工智能·opencv·计算机视觉