
📰 动态
- 2026.03 --- PenguinVL视觉编码器正式开放通用访问
- 2026.03 --- 发布PenguinVL-2B与PenguinVL-8B版本
🌟 模型概览
PenguinVL是一款紧凑型视觉语言模型,旨在探索小规模VLM的效率极限。它不仅是指令微调模型,更是通过基于LLM的视觉编码器构建、多模态预训练及后续指令调优从头打造的全新架构。
与多数依赖对比预训练视觉编码器(如CLIP/SigLIP)的现有VLM不同,PenguinVL直接从纯文本LLM初始化其视觉编码器。该设计规避了对比学习与自回归语言建模之间的目标失配问题,实现了视觉表征与语言主干更紧密的对齐。
核心特性
-
🧠 LLM基视觉编码器
视觉编码器改编自预训练文本LLM(Qwen3-0.6B),采用双向注意力机制与2D-RoPE空间建模技术改造。
该设计赋予模型强大的语义先验能力,并与下游LLM天然兼容。
-
🎥 高效视频理解
时序冗余感知(TRA)令牌压缩策略动态分配跨帧令牌预算,可在有限上下文窗口内实现长视频推理。
-
🏗 统一架构
模型包含三大组件:
- LLM初始化的视觉编码器
- 轻量级MLP投影层
- Qwen3语言主干
-
📊 小而强大
8B规模的Penguin-VL在图像、文档、OCR、数学及视频基准测试中展现竞争力,同时保持部署友好性。
🧪 快速开始------Transformers推理
python
import torch
from transformers import AutoModelForCausalLM, AutoProcessor
model_name = "tencent/Penguin-VL-8B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
trust_remote_code=True,
device_map="auto",
torch_dtype=torch.bfloat16,
)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
# Example: Image + Text
inputs = processor(
conversation=[
{"role": "system", "content": "You are a helpful assistant."},
{
"role": "user",
"content": [
{"type": "image", "image": {"image_path": "assets/example.jpg"}},
{"type": "text", "text": "Describe this image."}
],
},
],
return_tensors="pt",
)
inputs = {k: v.to("cuda") for k, v in inputs.items() if isinstance(v, torch.Tensor)}
output_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.decode(output_ids[0], skip_special_tokens=True)
print(response)
🌎 Model Zoo
| 模型 | 基础模型 | HF 链接 |
|---|---|---|
| PenguinVL-8B | Qwen3-8B | tencent/Penguin-VL-8B |
| PenguinVL-2B | Qwen3-1.7B | tencent/Penguin-VL-2B |
| PenguinVL-Encoder | Qwen3-0.6B | tencent/Penguin-Encoder |
🚀 主要成果
图表/OCR/文档理解
| 基准测试 | 企鹅-VL 8B | Qwen3-VL 8B | InternVL3.5 8B | OpenAI GPT-5 nano |
|---|---|---|---|---|
| InfoVQA | 86.8 | 83.1 | 79.1 | 49.2 |
| ChartQA | 90.5 | 89.6 | 86.7 | 48.6 |
| DocVQA | 96.2 | 96.1 | 92.3 | 78.3 |
| CharXiv (DQ / RQ) | 75.7 / 40.0 | 83.0 / 46.4 | 72.2 / 44.4 | 64.4 / 31.7 |
| OCRBench | 852 | 896 | 840 | 701 |
综合知识 / 多图像 / 数学推理
| 基准测试 | 企鹅-VL 8B | Qwen3-VL 8B | InternVL3.5 8B | OpenAI GPT-5 nano |
|---|---|---|---|---|
| AI2D | 86.1 | 85.7 | 84.0 | 65.7 |
| RealWorldQA | 75.8 | 71.5 | 67.5 | 60.7 |
| V-star | 90.2 | 90.1 | 70.7 | 63.4 |
| MMMU-Pro | 40.2 | 55.9 | 39.7 | 36.5 |
| BLINK | 58.2 | 69.1 | 59.5 | 42.2 |
| MathVista | 77.4 | 77.2 | 74.2 | 40.9 |
| MathVerse | 50.8 | 62.1 | 55.8 | 27.0 |
| LogicVista | 53.8 | 55.3 | 57.3 | 40.5 |
视频理解
| 基准测试 | 企鹅-VL 8B | Qwen3-VL 8B | InternVL3.5 8B | OpenAI GPT-5 nano |
|---|---|---|---|---|
| MVBench | 71.7 | 68.7 | 72.1 | 52.9 |
| LongVideoBench | 67.0 | 62.6 | 62.1 | 38.1 |
| VideoMME | 66.2 | 71.4 | 66.0 | 49.4 |
| Egochema | 67.0 | 70.2 | 61.0 | 34.8 |
| MMVU | 53.9 | 58.7 | 51.5 | 51.0 |
| CharadesSTA | 61.4 | 56.0 | 32.8 | 5.0 |
| NextQA | 85.4 | 82.3 | 81.3 | 59.3 |
| ActivityNetQA | 65.2 | 63.7 | 60.1 | -- |
| Perception Test | 78.0 | 72.7 | 72.7 | -- |
粗体 表示对比模型中的最佳结果。
更多细节请参阅我们的论文。
引用
如果您发现Penguin-VL对您的研究和应用有帮助,请使用以下BibTeX引用:
bibtex
@article{Penguin-VL,
title={Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders},
author={Boqiang Zhang and Lei Ke and Ruihan Yang and Qi Gao and Tianyuan Qu and Rossell Chen and Dong Yu and Leoweiliang},
journal={arXiv preprint arXiv:2603.06569},
year={2026}
}