谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用。

春末的南方城市2025-02-27 16:27

去年 12 月，谷歌推出了 PaliGemma 2 ，这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小（3B、10B 和 28B 参数）的预训练检查点，可轻松针对各种视觉语言任务和领域进行微调，例如图像分割、短视频字幕、科学问答和文本相关任务，并实现高性能。

2月19日，谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型，允许直接探索模型功能并将其开箱即用，用于常见用例。

PaliGemma 2 mix 有什么新功能？

一个模型可完成多项任务：PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。
适合开发人员的尺寸：借助不同的模型尺寸（3B、10B 和 28B 参数）和分辨率（224px 和 448px），使用最适合您需求的模型。
与您喜欢的框架一起使用：利用您喜欢的工具和框架，包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已经在使用原始的 PaliGemma 混合检查点，则可以直接升级到 PaliGemma 2，而无需进行任何更改。该模型根据提示方式执行不同的任务。

效果展示

检测

任务：检测（PaliGemma-2-3b-mix-224）
输入："detect android\n"

结果

多物体检测

任务：多目标检测（PaliGemma-2-3b-mix-224）
输入："检测椅子；桌子\n"

结果

餐厅内物品的多物体检测

结果：

光学字符识别 (OCR)

任务：多目标检测（PaliGemma-2-3b-mix-224）
输入-"ocr\n"

结果：

分割

任务：分割 (PaliGemma-2-3b-mix-224)
输入-"segment cat\n"

结果

问答

任务：问答 (PaliGemma2-mix-3b-448)
输入："答案 en 牛站在哪里？\n"

结果

beach

字幕

输入："caption en\n"

结果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光学字符识别 (OCR)

结果：

WARNING
DANGEROUS
RIP CURRENT

立即开始

上一篇：用Deepseek直接在word中完成论文的润色（中-中，中-英，英-中）

下一篇：Linux用户登录失败锁定策略

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚