[ComfyUI]Florence提示词反推、目标检测

文章目录

1.模型介绍

Florence-2是一个由微软Azure AI团队推出的多功能视觉模型,它在AI领域的独特之处主要体现在以下几个方面:
多功能性 :Florence-2能够执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。这种多功能性使得它能够处理各种视觉任务,而不需要针对特定任务训练不同的模型。
统一的表示方法 :Florence-2采用了基于prompt的统一表示方法,使其能够广泛适用于各种计算机视觉和视觉语言任务这种统一的范式增强了模型的通用性和灵活性。
序列到序列学习 :Florence-2基于Transformer架构,并采用序列到序列的学习方法,编码器将图像转换为序列表示,解码器再将这些表示转换为文本输出这种设计提高了模型处理任务的灵活性。
大规模数据集训 练:Florence-2训练使用包含1.26亿张图像和54亿个标注的超大数据集FLD-5B,结合自动化图像标注技术和模型迭代,确保数据的高质量和多样性。
多任务学习 :Florence-2通过多任务学习,同时关注底层细节和高层次语义理解,使得模型能够更全面、深入地理解视觉信息。
开源和可访问性:Florence-2的权重和代码已经在开源平台Hugging Face上公开,任何人都可以访问和使用。

这些特点使得Florence-2在AI领域,尤其是在视觉任务处理方面,提供了一个强大而灵活的工具

参考资料
Florence-2:小模型,大能量,提示词反推、文字识别、对象检测,指定蒙版样样精通,一个模型搞定所有!

2.模型部署

需要安装的模型权重

这是最基本的Florence-2-base模型,下载里面的所有文件到"models/LLM/Florence-2-base"文件夹
Florence-2-base

还有其他几个模型也可以下
microsoft/Florence-2-base-ft
Florence-2-large
microsoft/Florence-2-large-ft

部署报错
①FlashAttention2 用不了

FlashAttention2 has been toggled on, but it cannot be used due to the following errorjavascript:void(0): the package flash_attn seems to be not installed. Please refer to the documentation of https://huggingface.co/docs/transformers/perf_infer_gpu_one#flashattention-2 to install Flash Attention 2.

参考Error: FlashAttention2 has been toggled on, but it cannot be used [Windows 11] #

直接把注意力换为sdpa不要用flash_attention_2了

3.一些测试结果

①目标检测

可以看到目标检测的效果还是可以的

②图生文

In this picture we can see a person smiling and in the background it is dark

In this image we can see cartoons. In the background of the image there are trees and sky.

这个可以做很多的任务

相关推荐
m0_6501082421 小时前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
zandy101121 小时前
2025年11月AI IDE权深度测榜:深度分析不同场景的落地选型攻略
ide·人工智能·ai编程·ai代码·腾讯云ai代码助手
欢喜躲在眉梢里21 小时前
CANN 异构计算架构实操指南:从环境部署到 AI 任务加速全流程
运维·服务器·人工智能·ai·架构·计算
0***R51521 小时前
人工智能在金融风控中的应用
人工智能
2501_9414037621 小时前
人工智能赋能智慧金融互联网应用:智能风控、个性化理财与金融服务优化实践探索》
人工智能
youngerwang1 天前
【字节跳动 AI 原生 IDE TRAE 】
ide·人工智能·trae
youngerwang1 天前
AI 编程环境与主流 AI IDE 对比分析报告
ide·人工智能
猿小猴子1 天前
主流 AI IDE 之一的 Google Antigravity IDE 介绍
ide·人工智能·google·antigravity
Teacher.chenchong1 天前
GEE云端林业遥感:贯通森林分类、森林砍伐与退化监测、火灾评估、森林扰动监测、森林关键生理参数(树高/生物量/碳储量)反演等
人工智能·分类·数据挖掘
Hcoco_me1 天前
YOLO目标检测学习路线图
学习·yolo·目标检测