【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL

📰 动态

  • 2026.03 --- PenguinVL视觉编码器正式开放通用访问
  • 2026.03 --- 发布PenguinVL-2B与PenguinVL-8B版本

🌟 模型概览

PenguinVL是一款紧凑型视觉语言模型,旨在探索小规模VLM的效率极限。它不仅是指令微调模型,更是通过基于LLM的视觉编码器构建、多模态预训练及后续指令调优从头打造的全新架构。

与多数依赖对比预训练视觉编码器(如CLIP/SigLIP)的现有VLM不同,PenguinVL直接从纯文本LLM初始化其视觉编码器。该设计规避了对比学习与自回归语言建模之间的目标失配问题,实现了视觉表征与语言主干更紧密的对齐。

核心特性

  • 🧠 LLM基视觉编码器

    视觉编码器改编自预训练文本LLM(Qwen3-0.6B),采用双向注意力机制与2D-RoPE空间建模技术改造。

    该设计赋予模型强大的语义先验能力,并与下游LLM天然兼容。

  • 🎥 高效视频理解

    时序冗余感知(TRA)令牌压缩策略动态分配跨帧令牌预算,可在有限上下文窗口内实现长视频推理。

  • 🏗 统一架构

    模型包含三大组件:

    1. LLM初始化的视觉编码器
    2. 轻量级MLP投影层
    3. Qwen3语言主干
  • 📊 小而强大

    8B规模的Penguin-VL在图像、文档、OCR、数学及视频基准测试中展现竞争力,同时保持部署友好性。


🧪 快速开始------Transformers推理

python 复制代码
import torch
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "tencent/Penguin-VL-8B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# Example: Image + Text
inputs = processor(
    conversation=[
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": [
                {"type": "image", "image": {"image_path": "assets/example.jpg"}},
                {"type": "text", "text": "Describe this image."}
            ],
        },
    ],
    return_tensors="pt",
)


inputs = {k: v.to("cuda") for k, v in inputs.items() if isinstance(v, torch.Tensor)}

output_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.decode(output_ids[0], skip_special_tokens=True)

print(response)

🌎 Model Zoo

模型 基础模型 HF 链接
PenguinVL-8B Qwen3-8B tencent/Penguin-VL-8B
PenguinVL-2B Qwen3-1.7B tencent/Penguin-VL-2B
PenguinVL-Encoder Qwen3-0.6B tencent/Penguin-Encoder

🚀 主要成果

图表/OCR/文档理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
InfoVQA 86.8 83.1 79.1 49.2
ChartQA 90.5 89.6 86.7 48.6
DocVQA 96.2 96.1 92.3 78.3
CharXiv (DQ / RQ) 75.7 / 40.0 83.0 / 46.4 72.2 / 44.4 64.4 / 31.7
OCRBench 852 896 840 701

综合知识 / 多图像 / 数学推理

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
AI2D 86.1 85.7 84.0 65.7
RealWorldQA 75.8 71.5 67.5 60.7
V-star 90.2 90.1 70.7 63.4
MMMU-Pro 40.2 55.9 39.7 36.5
BLINK 58.2 69.1 59.5 42.2
MathVista 77.4 77.2 74.2 40.9
MathVerse 50.8 62.1 55.8 27.0
LogicVista 53.8 55.3 57.3 40.5

视频理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
MVBench 71.7 68.7 72.1 52.9
LongVideoBench 67.0 62.6 62.1 38.1
VideoMME 66.2 71.4 66.0 49.4
Egochema 67.0 70.2 61.0 34.8
MMVU 53.9 58.7 51.5 51.0
CharadesSTA 61.4 56.0 32.8 5.0
NextQA 85.4 82.3 81.3 59.3
ActivityNetQA 65.2 63.7 60.1 --
Perception Test 78.0 72.7 72.7 --

粗体 表示对比模型中的最佳结果。

更多细节请参阅我们的论文。

引用

如果您发现Penguin-VL对您的研究和应用有帮助,请使用以下BibTeX引用:

bibtex 复制代码
@article{Penguin-VL,
  title={Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders},
  author={Boqiang Zhang and Lei Ke and Ruihan Yang and Qi Gao and Tianyuan Qu and Rossell Chen and Dong Yu and Leoweiliang},
  journal={arXiv preprint arXiv:2603.06569},
  year={2026}
}
相关推荐
大刚测试开发实战11 小时前
TestHub V0.2.2版本发布,附更新指南
人工智能
冬奇Lab12 小时前
Agent 系列(21):Harness 测试工程——45 个测试怎么设计,以及它发现了什么 bug
人工智能·llm·agent
冬奇Lab12 小时前
每日一个开源项目(第133篇):EchoBird - 把 AI 工具的安装和部署做成傻瓜操作
人工智能·开源·资讯
IT_陈寒14 小时前
Redis的SETNX并发问题让我加了三天班
前端·人工智能·后端
用户51914958484515 小时前
Windows 渗透测试载荷加载器 POC 工具集
人工智能·aigc
大树8815 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
通信小呆呆15 小时前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
施小赞15 小时前
普通 RAG vs GraphRAG 核心对比
人工智能·ai
EAIReport15 小时前
RuoYi-AI 企业级AI开发平台实战详解
人工智能
HelloWorld__来都来了16 小时前
【每日学术速报】2026-06-15
人工智能·具身智能