1. BLIP (Bootstrapped Language-Image Pre-training)
-
类型:多模态(图像+文本)预训练模型
-
用途 :生成图像的自然语言描述 或标签(如场景、物体、动作)。
-
特点:
-
结合视觉Transformer和语言模型,支持零样本(无需标注数据)生成描述。
-
适用于通用图像标注(如"一只猫坐在沙发上")。
-
-
典型场景:社交媒体内容审核、图像检索、辅助视觉障碍者。
2. DeepDanbooru/Deepbooru
-
类型 :基于深度学习的标签预测模型
-
用途 :为二次元/动漫图像生成多标签(如"blonde_hair, blue_eyes, smile")。
-
特点:
-
训练数据来源于Danbooru等动漫图库,标签风格高度特定(社区常用标签)。
-
输出为概率化的标签列表,适合精细化标注。
-
-
典型场景:动漫图像分类、图库标签自动化。
3. 仅触发词(Trigger Words)
-
类型 :基于关键词匹配的简化打标
-
用途:通过预设的关键词列表(如"风景""人物")直接匹配图像或文本。
-
特点:
-
无需模型训练,完全依赖规则。
-
准确率低,适合粗糙分类(如过滤NSFW内容)。
-
-
典型场景:快速初筛内容、结合其他方法做粗标注。
4. 无需标注(Zero-shot/Few-shot Learning)
-
类型 :依赖预训练模型的零样本学习
-
用途:直接利用通用模型(如CLIP、BLIP)预测新类别标签,无需额外标注数据。
-
特点:
-
模型通过自然语言提示(如"这是一张狗的图片吗?")生成标签。
-
灵活性高,但依赖模型泛化能力。
-
-
典型场景:小众类别标注(如"考拉")、快速原型开发。
5. LLaVA (Large Language and Vision Assistant)
-
类型:多模态大模型(图像+文本)
-
用途 :通过对话形式生成图像的详细描述 或复杂标签。
-
特点:
-
结合视觉编码器(如CLIP)和LLM(如Vicuna),支持交互式标注。
-
输出更接近人类语言(如分析图像中的情感、因果关系)。
-
-
典型场景:教育、图像内容深度分析。
6. Joy2
-
类型 :针对特定领域的轻量级标注工具
-
用途 :为游戏/虚拟形象(如VRChat)生成风格化标签(如"赛博朋克""卡通渲染")。
-
特点:
-
可能基于小型微调模型或规则库,专注垂直领域。
-
标签风格更符合社区需求(如"lo-fi""kawaii")。
-
-
典型场景:虚拟形象分类、游戏资产管理。
对比总结
工具/方法 | 数据需求 | 输出类型 | 适用领域 |
---|---|---|---|
BLIP | 无需标注 | 自然语言描述 | 通用图像 |
Deepbooru | 需动漫标注数据 | 多标签(概率化) | 二次元图像 |
仅触发词 | 无需训练 | 关键词列表 | 粗糙分类/初筛 |
无需标注 | 零样本 | 开放域标签 | 小众类别 |
LLaVA | 无需标注 | 交互式详细描述 | 复杂场景分析 |
Joy2 | 可能需微调 | 风格化标签 | 游戏/虚拟形象 |