【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL

📰 动态

2026.03 --- PenguinVL视觉编码器正式开放通用访问
2026.03 --- 发布PenguinVL-2B与PenguinVL-8B版本

🌟 模型概览

PenguinVL是一款紧凑型视觉语言模型，旨在探索小规模VLM的效率极限。它不仅是指令微调模型，更是通过基于LLM的视觉编码器构建、多模态预训练及后续指令调优从头打造的全新架构。

与多数依赖对比预训练视觉编码器（如CLIP/SigLIP）的现有VLM不同，PenguinVL直接从纯文本LLM初始化其视觉编码器。该设计规避了对比学习与自回归语言建模之间的目标失配问题，实现了视觉表征与语言主干更紧密的对齐。

核心特性

🧠 LLM基视觉编码器

视觉编码器改编自预训练文本LLM（Qwen3-0.6B），采用双向注意力机制与2D-RoPE空间建模技术改造。

该设计赋予模型强大的语义先验能力，并与下游LLM天然兼容。
🎥 高效视频理解

时序冗余感知（TRA）令牌压缩策略动态分配跨帧令牌预算，可在有限上下文窗口内实现长视频推理。
🏗 统一架构

模型包含三大组件：
1. LLM初始化的视觉编码器
2. 轻量级MLP投影层
3. Qwen3语言主干
📊 小而强大

8B规模的Penguin-VL在图像、文档、OCR、数学及视频基准测试中展现竞争力，同时保持部署友好性。

🧪 快速开始------Transformers推理

python 复制代码

import torch
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "tencent/Penguin-VL-8B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# Example: Image + Text
inputs = processor(
    conversation=[
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": [
                {"type": "image", "image": {"image_path": "assets/example.jpg"}},
                {"type": "text", "text": "Describe this image."}
            ],
        },
    ],
    return_tensors="pt",
)


inputs = {k: v.to("cuda") for k, v in inputs.items() if isinstance(v, torch.Tensor)}

output_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.decode(output_ids[0], skip_special_tokens=True)

print(response)

🌎 Model Zoo

模型	基础模型	HF 链接
PenguinVL-8B	Qwen3-8B	tencent/Penguin-VL-8B
PenguinVL-2B	Qwen3-1.7B	tencent/Penguin-VL-2B
PenguinVL-Encoder	Qwen3-0.6B	tencent/Penguin-Encoder

🚀 主要成果

图表/OCR/文档理解

基准测试	企鹅-VL 8B	Qwen3-VL 8B	InternVL3.5 8B	OpenAI GPT-5 nano
InfoVQA	86.8	83.1	79.1	49.2
ChartQA	90.5	89.6	86.7	48.6
DocVQA	96.2	96.1	92.3	78.3
CharXiv (DQ / RQ)	75.7 / 40.0	83.0 / 46.4	72.2 / 44.4	64.4 / 31.7
OCRBench	852	896	840	701

综合知识 / 多图像 / 数学推理

基准测试	企鹅-VL 8B	Qwen3-VL 8B	InternVL3.5 8B	OpenAI GPT-5 nano
AI2D	86.1	85.7	84.0	65.7
RealWorldQA	75.8	71.5	67.5	60.7
V-star	90.2	90.1	70.7	63.4
MMMU-Pro	40.2	55.9	39.7	36.5
BLINK	58.2	69.1	59.5	42.2
MathVista	77.4	77.2	74.2	40.9
MathVerse	50.8	62.1	55.8	27.0
LogicVista	53.8	55.3	57.3	40.5

视频理解

基准测试	企鹅-VL 8B	Qwen3-VL 8B	InternVL3.5 8B	OpenAI GPT-5 nano
MVBench	71.7	68.7	72.1	52.9
LongVideoBench	67.0	62.6	62.1	38.1
VideoMME	66.2	71.4	66.0	49.4
Egochema	67.0	70.2	61.0	34.8
MMVU	53.9	58.7	51.5	51.0
CharadesSTA	61.4	56.0	32.8	5.0
NextQA	85.4	82.3	81.3	59.3
ActivityNetQA	65.2	63.7	60.1	--
Perception Test	78.0	72.7	72.7	--

粗体表示对比模型中的最佳结果。

更多细节请参阅我们的论文。

引用

如果您发现Penguin-VL对您的研究和应用有帮助，请使用以下BibTeX引用：

bibtex 复制代码

@article{Penguin-VL,
  title={Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders},
  author={Boqiang Zhang and Lei Ke and Ruihan Yang and Qi Gao and Tianyuan Qu and Rossell Chen and Dong Yu and Leoweiliang},
  journal={arXiv preprint arXiv:2603.06569},
  year={2026}
}