谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。

去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。

2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。

PaliGemma 2 mix 有什么新功能?

  • 一个模型可完成多项任务:PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。

  • 适合开发人员的尺寸:借助不同的模型尺寸(3B、10B 和 28B 参数)和分辨率(224px 和 448px),使用最适合您需求的模型。

  • 与您喜欢的框架一起使用:利用您喜欢的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已经在使用原始的 PaliGemma 混合检查点,则可以直接升级到 PaliGemma 2,而无需进行任何更改。该模型根据提示方式执行不同的任务。

效果展示

检测

  • 任务:检测(PaliGemma-2-3b-mix-224)

  • 输入:"detect android\n"

结果

多物体检测

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)

  • 输入:"检测椅子;桌子\n"

结果

  • 餐厅内物品的多物体检测

结果:

光学字符识别 (OCR)

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)

  • 输入-"ocr\n"

结果:

分割

  • 任务:分割 (PaliGemma-2-3b-mix-224)

  • 输入-"segment cat\n"

结果

问答

  • 任务:问答 (PaliGemma2-mix-3b-448)

  • 输入:"答案 en 牛站在哪里?\n"

结果

beach

字幕

  • 输入:"caption en\n"

结果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光学字符识别 (OCR)

结果:

  • WARNING

  • DANGEROUS

  • RIP CURRENT

立即开始

相关推荐
大千AI助手1 小时前
代价复杂度剪枝(CCP)详解:原理、实现与应用
人工智能·决策树·机器学习·剪枝·大千ai助手·代价复杂度剪枝·ccp
zl_vslam2 小时前
SLAM中的非线性优-3D图优化之李群李代数在Opencv-PNP中的应用(四)
人工智能·opencv·算法·计算机视觉
whaosoft-1432 小时前
51c视觉~3D~合集8
人工智能
澳鹏Appen5 小时前
数据集月度精选 | 高质量具身智能数据集:打开机器人“感知-决策-动作”闭环的钥匙
人工智能·机器人·具身智能
Chunyyyen5 小时前
【第二十二周】自然语言处理的学习笔记06
笔记·学习·自然语言处理
q***71016 小时前
开源模型应用落地-工具使用篇-Spring AI-Function Call(八)
人工智能·spring·开源
极限实验室7 小时前
Coco AI 参选 Gitee 2025 最受欢迎开源软件!您的每一票,都是对中国开源的硬核支持
人工智能·开源
secondyoung7 小时前
Mermaid流程图高效转换为图片方案
c语言·人工智能·windows·vscode·python·docker·流程图
iFlow_AI7 小时前
iFlow CLI Hooks 「从入门到实战」应用指南
开发语言·前端·javascript·人工智能·ai·iflow·iflow cli
Shang180989357267 小时前
THC63LVD1027D一款10位双链路LVDS信号中继器芯片,支持WUXGA分辨率视频数据传输THC63LVD1027支持30位数据通道方案
人工智能·考研·信息与通信·信号处理·thc63lvd1027d·thc63lvd1027