【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL

📰 动态

  • 2026.03 --- PenguinVL视觉编码器正式开放通用访问
  • 2026.03 --- 发布PenguinVL-2B与PenguinVL-8B版本

🌟 模型概览

PenguinVL是一款紧凑型视觉语言模型,旨在探索小规模VLM的效率极限。它不仅是指令微调模型,更是通过基于LLM的视觉编码器构建、多模态预训练及后续指令调优从头打造的全新架构。

与多数依赖对比预训练视觉编码器(如CLIP/SigLIP)的现有VLM不同,PenguinVL直接从纯文本LLM初始化其视觉编码器。该设计规避了对比学习与自回归语言建模之间的目标失配问题,实现了视觉表征与语言主干更紧密的对齐。

核心特性

  • 🧠 LLM基视觉编码器

    视觉编码器改编自预训练文本LLM(Qwen3-0.6B),采用双向注意力机制与2D-RoPE空间建模技术改造。

    该设计赋予模型强大的语义先验能力,并与下游LLM天然兼容。

  • 🎥 高效视频理解

    时序冗余感知(TRA)令牌压缩策略动态分配跨帧令牌预算,可在有限上下文窗口内实现长视频推理。

  • 🏗 统一架构

    模型包含三大组件:

    1. LLM初始化的视觉编码器
    2. 轻量级MLP投影层
    3. Qwen3语言主干
  • 📊 小而强大

    8B规模的Penguin-VL在图像、文档、OCR、数学及视频基准测试中展现竞争力,同时保持部署友好性。


🧪 快速开始------Transformers推理

python 复制代码
import torch
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "tencent/Penguin-VL-8B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# Example: Image + Text
inputs = processor(
    conversation=[
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": [
                {"type": "image", "image": {"image_path": "assets/example.jpg"}},
                {"type": "text", "text": "Describe this image."}
            ],
        },
    ],
    return_tensors="pt",
)


inputs = {k: v.to("cuda") for k, v in inputs.items() if isinstance(v, torch.Tensor)}

output_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.decode(output_ids[0], skip_special_tokens=True)

print(response)

🌎 Model Zoo

模型 基础模型 HF 链接
PenguinVL-8B Qwen3-8B tencent/Penguin-VL-8B
PenguinVL-2B Qwen3-1.7B tencent/Penguin-VL-2B
PenguinVL-Encoder Qwen3-0.6B tencent/Penguin-Encoder

🚀 主要成果

图表/OCR/文档理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
InfoVQA 86.8 83.1 79.1 49.2
ChartQA 90.5 89.6 86.7 48.6
DocVQA 96.2 96.1 92.3 78.3
CharXiv (DQ / RQ) 75.7 / 40.0 83.0 / 46.4 72.2 / 44.4 64.4 / 31.7
OCRBench 852 896 840 701

综合知识 / 多图像 / 数学推理

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
AI2D 86.1 85.7 84.0 65.7
RealWorldQA 75.8 71.5 67.5 60.7
V-star 90.2 90.1 70.7 63.4
MMMU-Pro 40.2 55.9 39.7 36.5
BLINK 58.2 69.1 59.5 42.2
MathVista 77.4 77.2 74.2 40.9
MathVerse 50.8 62.1 55.8 27.0
LogicVista 53.8 55.3 57.3 40.5

视频理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
MVBench 71.7 68.7 72.1 52.9
LongVideoBench 67.0 62.6 62.1 38.1
VideoMME 66.2 71.4 66.0 49.4
Egochema 67.0 70.2 61.0 34.8
MMVU 53.9 58.7 51.5 51.0
CharadesSTA 61.4 56.0 32.8 5.0
NextQA 85.4 82.3 81.3 59.3
ActivityNetQA 65.2 63.7 60.1 --
Perception Test 78.0 72.7 72.7 --

粗体 表示对比模型中的最佳结果。

更多细节请参阅我们的论文。

引用

如果您发现Penguin-VL对您的研究和应用有帮助,请使用以下BibTeX引用:

bibtex 复制代码
@article{Penguin-VL,
  title={Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders},
  author={Boqiang Zhang and Lei Ke and Ruihan Yang and Qi Gao and Tianyuan Qu and Rossell Chen and Dong Yu and Leoweiliang},
  journal={arXiv preprint arXiv:2603.06569},
  year={2026}
}
相关推荐
林姜泽樾1 天前
腾讯workbuddy接入QQ,制作AI智能助手
人工智能·ai
阿拉斯攀登1 天前
第八篇(终篇):选型指南——开源 vs 闭源、国内 vs 国外
人工智能·机器学习·ai·大模型·ollma
qq_454245031 天前
AI模块化工作流的基石:三要素双向生成与可信存储机制
人工智能·架构
ZKNOW甄知科技1 天前
深度对标ServiceNow:燕千云如何破解企业全球化运维难题?
大数据·运维·人工智能·科技·ai·自动化·运维开发
回家路上绕了弯1 天前
Claude Code Agent Team 全解析:AI 集群协作,重构代码开发新范式
人工智能·分布式·后端
工业甲酰苯胺1 天前
深度学习核心训练逻辑:自迭代五步法深度解析与实践
人工智能·深度学习
淡岚未央1 天前
Qwen3-14b的微调框架优化
人工智能
Francek Chen1 天前
【ComfyUI】蓝耘元生代 | ComfyUI深度解析:高性能AI绘画工作流实践
人工智能·深度学习·ai作画·aigc·comfyui·蓝耘元生代
四处炼丹1 天前
OpenClaw本地部署与Multi-Agent 技术分享
人工智能·算法·aigc·agent·ai编程
ZTLJQ1 天前
深入理解CNN:卷积神经网络的原理与实战应用
人工智能·神经网络·cnn