[ComfyUI]Florence提示词反推、目标检测

文章目录

1.模型介绍

Florence-2是一个由微软Azure AI团队推出的多功能视觉模型,它在AI领域的独特之处主要体现在以下几个方面:
多功能性 :Florence-2能够执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。这种多功能性使得它能够处理各种视觉任务,而不需要针对特定任务训练不同的模型。
统一的表示方法 :Florence-2采用了基于prompt的统一表示方法,使其能够广泛适用于各种计算机视觉和视觉语言任务这种统一的范式增强了模型的通用性和灵活性。
序列到序列学习 :Florence-2基于Transformer架构,并采用序列到序列的学习方法,编码器将图像转换为序列表示,解码器再将这些表示转换为文本输出这种设计提高了模型处理任务的灵活性。
大规模数据集训 练:Florence-2训练使用包含1.26亿张图像和54亿个标注的超大数据集FLD-5B,结合自动化图像标注技术和模型迭代,确保数据的高质量和多样性。
多任务学习 :Florence-2通过多任务学习,同时关注底层细节和高层次语义理解,使得模型能够更全面、深入地理解视觉信息。
开源和可访问性:Florence-2的权重和代码已经在开源平台Hugging Face上公开,任何人都可以访问和使用。

这些特点使得Florence-2在AI领域,尤其是在视觉任务处理方面,提供了一个强大而灵活的工具

参考资料
Florence-2:小模型,大能量,提示词反推、文字识别、对象检测,指定蒙版样样精通,一个模型搞定所有!

2.模型部署

需要安装的模型权重

这是最基本的Florence-2-base模型,下载里面的所有文件到"models/LLM/Florence-2-base"文件夹
Florence-2-base

还有其他几个模型也可以下
microsoft/Florence-2-base-ft
Florence-2-large
microsoft/Florence-2-large-ft

部署报错
①FlashAttention2 用不了

FlashAttention2 has been toggled on, but it cannot be used due to the following errorjavascript:void(0): the package flash_attn seems to be not installed. Please refer to the documentation of https://huggingface.co/docs/transformers/perf_infer_gpu_one#flashattention-2 to install Flash Attention 2.

参考Error: FlashAttention2 has been toggled on, but it cannot be used [Windows 11] #

直接把注意力换为sdpa不要用flash_attention_2了

3.一些测试结果

①目标检测

可以看到目标检测的效果还是可以的

②图生文

In this picture we can see a person smiling and in the background it is dark

In this image we can see cartoons. In the background of the image there are trees and sky.

这个可以做很多的任务

相关推荐
踩着两条虫35 分钟前
AI 智能体如何重构开发工作流
前端·人工智能·低代码
大模型真好玩1 小时前
大模型训练全流程实战指南工具篇(八)——EasyDataset问答数据集生成流程
人工智能·langchain·deepseek
Johny_Zhao2 小时前
OpenClaw中级到高级教程
linux·人工智能·信息安全·kubernetes·云计算·yum源·系统运维·openclaw
比尔盖茨的大脑4 小时前
AI Agent 架构设计:从 ReAct 到 Multi-Agent 系统
前端·人工智能·全栈
后端小肥肠5 小时前
OpenClaw 实战|多 Agent 打通小红书:数据收集 + 笔记编写 + 自动发布一步到位
人工智能·aigc·agent
银河系搭车客指南5 小时前
OpenClaw 多 Agent 实战指南:Multi-Agent Routing 与 Sub-Agents 的正确打开方式
人工智能
手机不死我是天子5 小时前
拆解大模型二:Transformer 最核心的设计,其实你高中就学过
人工智能·llm
gustt5 小时前
MCP协议进阶:构建多工具Agent实现智能查询与浏览器交互
人工智能·agent·mcp
Halo咯咯5 小时前
Claude Code 的工程哲学:缓存与工具设计的真实教训 | 经验分享
人工智能
风象南6 小时前
最适合新手先装的 20 个 OpenClaw Skills 来了!
人工智能