谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。

去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。

2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。

PaliGemma 2 mix 有什么新功能?

  • 一个模型可完成多项任务:PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。

  • 适合开发人员的尺寸:借助不同的模型尺寸(3B、10B 和 28B 参数)和分辨率(224px 和 448px),使用最适合您需求的模型。

  • 与您喜欢的框架一起使用:利用您喜欢的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已经在使用原始的 PaliGemma 混合检查点,则可以直接升级到 PaliGemma 2,而无需进行任何更改。该模型根据提示方式执行不同的任务。

效果展示

检测

  • 任务:检测(PaliGemma-2-3b-mix-224)

  • 输入:"detect android\n"

结果

多物体检测

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)

  • 输入:"检测椅子;桌子\n"

结果

  • 餐厅内物品的多物体检测

结果:

光学字符识别 (OCR)

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)

  • 输入-"ocr\n"

结果:

分割

  • 任务:分割 (PaliGemma-2-3b-mix-224)

  • 输入-"segment cat\n"

结果

问答

  • 任务:问答 (PaliGemma2-mix-3b-448)

  • 输入:"答案 en 牛站在哪里?\n"

结果

beach

字幕

  • 输入:"caption en\n"

结果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光学字符识别 (OCR)

结果:

  • WARNING

  • DANGEROUS

  • RIP CURRENT

立即开始

相关推荐
说私域2 分钟前
基于开源AI大模型AI智能名片S2B2C商城小程序源码的销售环节数字化实现路径研究
人工智能·小程序·开源·零售
正在走向自律1 小时前
Trae上手指南:AI编程从0到1的奇妙跃迁
人工智能
MILI元宇宙1 小时前
DeepSeek R1开源模型的技术突破与AI产业格局的重构
人工智能·重构·开源
江苏泊苏系统集成有限公司2 小时前
半导体晶圆制造洁净厂房的微振控制方案-江苏泊苏系统集成有限公司
人工智能·深度学习·目标检测·机器学习·创业创新·制造·远程工作
猿小猴子3 小时前
主流 AI IDE 之一的 Windsurf 介绍
ide·人工智能
智联视频超融合平台3 小时前
无人机+AI视频联网:精准狙击,让‘罪恶之花’无处藏身
人工智能·网络协议·安全·系统安全·音视频·无人机
AiTEN_Robotics4 小时前
智能仓储落地:机器人如何通过自动化减少仓库操作失误?
人工智能·机器人·自动化
江湖有缘4 小时前
华为云Flexus+DeepSeek征文 | 初探华为云ModelArts Studio:部署DeepSeek-V3/R1商用服务的详细步骤
人工智能·华为云·modelarts
Vizio<4 小时前
基于FashionMnist数据集的自监督学习(生成式自监督学习AE算法)
人工智能·笔记·深度学习·神经网络·自监督学习
梅一一5 小时前
5款AI对决:Gemini学术封神,但日常办公我选它
大数据·人工智能·数据可视化