【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL

📰 动态

  • 2026.03 --- PenguinVL视觉编码器正式开放通用访问
  • 2026.03 --- 发布PenguinVL-2B与PenguinVL-8B版本

🌟 模型概览

PenguinVL是一款紧凑型视觉语言模型,旨在探索小规模VLM的效率极限。它不仅是指令微调模型,更是通过基于LLM的视觉编码器构建、多模态预训练及后续指令调优从头打造的全新架构。

与多数依赖对比预训练视觉编码器(如CLIP/SigLIP)的现有VLM不同,PenguinVL直接从纯文本LLM初始化其视觉编码器。该设计规避了对比学习与自回归语言建模之间的目标失配问题,实现了视觉表征与语言主干更紧密的对齐。

核心特性

  • 🧠 LLM基视觉编码器

    视觉编码器改编自预训练文本LLM(Qwen3-0.6B),采用双向注意力机制与2D-RoPE空间建模技术改造。

    该设计赋予模型强大的语义先验能力,并与下游LLM天然兼容。

  • 🎥 高效视频理解

    时序冗余感知(TRA)令牌压缩策略动态分配跨帧令牌预算,可在有限上下文窗口内实现长视频推理。

  • 🏗 统一架构

    模型包含三大组件:

    1. LLM初始化的视觉编码器
    2. 轻量级MLP投影层
    3. Qwen3语言主干
  • 📊 小而强大

    8B规模的Penguin-VL在图像、文档、OCR、数学及视频基准测试中展现竞争力,同时保持部署友好性。


🧪 快速开始------Transformers推理

python 复制代码
import torch
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "tencent/Penguin-VL-8B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# Example: Image + Text
inputs = processor(
    conversation=[
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": [
                {"type": "image", "image": {"image_path": "assets/example.jpg"}},
                {"type": "text", "text": "Describe this image."}
            ],
        },
    ],
    return_tensors="pt",
)


inputs = {k: v.to("cuda") for k, v in inputs.items() if isinstance(v, torch.Tensor)}

output_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.decode(output_ids[0], skip_special_tokens=True)

print(response)

🌎 Model Zoo

模型 基础模型 HF 链接
PenguinVL-8B Qwen3-8B tencent/Penguin-VL-8B
PenguinVL-2B Qwen3-1.7B tencent/Penguin-VL-2B
PenguinVL-Encoder Qwen3-0.6B tencent/Penguin-Encoder

🚀 主要成果

图表/OCR/文档理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
InfoVQA 86.8 83.1 79.1 49.2
ChartQA 90.5 89.6 86.7 48.6
DocVQA 96.2 96.1 92.3 78.3
CharXiv (DQ / RQ) 75.7 / 40.0 83.0 / 46.4 72.2 / 44.4 64.4 / 31.7
OCRBench 852 896 840 701

综合知识 / 多图像 / 数学推理

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
AI2D 86.1 85.7 84.0 65.7
RealWorldQA 75.8 71.5 67.5 60.7
V-star 90.2 90.1 70.7 63.4
MMMU-Pro 40.2 55.9 39.7 36.5
BLINK 58.2 69.1 59.5 42.2
MathVista 77.4 77.2 74.2 40.9
MathVerse 50.8 62.1 55.8 27.0
LogicVista 53.8 55.3 57.3 40.5

视频理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
MVBench 71.7 68.7 72.1 52.9
LongVideoBench 67.0 62.6 62.1 38.1
VideoMME 66.2 71.4 66.0 49.4
Egochema 67.0 70.2 61.0 34.8
MMVU 53.9 58.7 51.5 51.0
CharadesSTA 61.4 56.0 32.8 5.0
NextQA 85.4 82.3 81.3 59.3
ActivityNetQA 65.2 63.7 60.1 --
Perception Test 78.0 72.7 72.7 --

粗体 表示对比模型中的最佳结果。

更多细节请参阅我们的论文。

引用

如果您发现Penguin-VL对您的研究和应用有帮助,请使用以下BibTeX引用:

bibtex 复制代码
@article{Penguin-VL,
  title={Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders},
  author={Boqiang Zhang and Lei Ke and Ruihan Yang and Qi Gao and Tianyuan Qu and Rossell Chen and Dong Yu and Leoweiliang},
  journal={arXiv preprint arXiv:2603.06569},
  year={2026}
}
相关推荐
ConardLi几秒前
开源我的 GPT-Image2 生图 Skill,附大量玩法指南
前端·人工智能·后端
QYR_112 分钟前
2026卷绕式扣式电池产业洞察:智能制造如何重塑微型储能格局?
人工智能·市场调研
白熊1882 分钟前
【大模型Agent】LangGraph 深度科普:为智能体而生的“有状态”编排框架
人工智能·langchain·agent·langgraph
数智工坊5 分钟前
【SIoU Loss论文阅读】:引入角度感知的框回归损失,让检测收敛更快更准
论文阅读·人工智能·深度学习·机器学习·数据挖掘·回归·cnn
bloglin9999910 分钟前
向量大模型升级可能改变向量空间(需要回归)
人工智能·数据挖掘·回归
AI技术增长14 分钟前
Pytorch图像去噪实战(三):ResUNet图像去噪模型实战,解决UNet深层训练不稳定问题
人工智能·pytorch·深度学习
TDengine (老段)20 分钟前
工业软件的未来:构建在工业数据底座之上的 AI Agent
大数据·数据库·人工智能·时序数据库·tdengine
aLTttY20 分钟前
Spring Boot集成AI大模型实战:从0到1打造智能应用
人工智能·spring boot·后端
FlyIer55622 分钟前
2026 个人网站建站软件实测
人工智能
Yuer202523 分钟前
Case-X01豆包意图识别能力压力测试
人工智能·edca os