【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL

📰 动态

  • 2026.03 --- PenguinVL视觉编码器正式开放通用访问
  • 2026.03 --- 发布PenguinVL-2B与PenguinVL-8B版本

🌟 模型概览

PenguinVL是一款紧凑型视觉语言模型,旨在探索小规模VLM的效率极限。它不仅是指令微调模型,更是通过基于LLM的视觉编码器构建、多模态预训练及后续指令调优从头打造的全新架构。

与多数依赖对比预训练视觉编码器(如CLIP/SigLIP)的现有VLM不同,PenguinVL直接从纯文本LLM初始化其视觉编码器。该设计规避了对比学习与自回归语言建模之间的目标失配问题,实现了视觉表征与语言主干更紧密的对齐。

核心特性

  • 🧠 LLM基视觉编码器

    视觉编码器改编自预训练文本LLM(Qwen3-0.6B),采用双向注意力机制与2D-RoPE空间建模技术改造。

    该设计赋予模型强大的语义先验能力,并与下游LLM天然兼容。

  • 🎥 高效视频理解

    时序冗余感知(TRA)令牌压缩策略动态分配跨帧令牌预算,可在有限上下文窗口内实现长视频推理。

  • 🏗 统一架构

    模型包含三大组件:

    1. LLM初始化的视觉编码器
    2. 轻量级MLP投影层
    3. Qwen3语言主干
  • 📊 小而强大

    8B规模的Penguin-VL在图像、文档、OCR、数学及视频基准测试中展现竞争力,同时保持部署友好性。


🧪 快速开始------Transformers推理

python 复制代码
import torch
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "tencent/Penguin-VL-8B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# Example: Image + Text
inputs = processor(
    conversation=[
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": [
                {"type": "image", "image": {"image_path": "assets/example.jpg"}},
                {"type": "text", "text": "Describe this image."}
            ],
        },
    ],
    return_tensors="pt",
)


inputs = {k: v.to("cuda") for k, v in inputs.items() if isinstance(v, torch.Tensor)}

output_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.decode(output_ids[0], skip_special_tokens=True)

print(response)

🌎 Model Zoo

模型 基础模型 HF 链接
PenguinVL-8B Qwen3-8B tencent/Penguin-VL-8B
PenguinVL-2B Qwen3-1.7B tencent/Penguin-VL-2B
PenguinVL-Encoder Qwen3-0.6B tencent/Penguin-Encoder

🚀 主要成果

图表/OCR/文档理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
InfoVQA 86.8 83.1 79.1 49.2
ChartQA 90.5 89.6 86.7 48.6
DocVQA 96.2 96.1 92.3 78.3
CharXiv (DQ / RQ) 75.7 / 40.0 83.0 / 46.4 72.2 / 44.4 64.4 / 31.7
OCRBench 852 896 840 701

综合知识 / 多图像 / 数学推理

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
AI2D 86.1 85.7 84.0 65.7
RealWorldQA 75.8 71.5 67.5 60.7
V-star 90.2 90.1 70.7 63.4
MMMU-Pro 40.2 55.9 39.7 36.5
BLINK 58.2 69.1 59.5 42.2
MathVista 77.4 77.2 74.2 40.9
MathVerse 50.8 62.1 55.8 27.0
LogicVista 53.8 55.3 57.3 40.5

视频理解

基准测试 企鹅-VL 8B Qwen3-VL 8B InternVL3.5 8B OpenAI GPT-5 nano
MVBench 71.7 68.7 72.1 52.9
LongVideoBench 67.0 62.6 62.1 38.1
VideoMME 66.2 71.4 66.0 49.4
Egochema 67.0 70.2 61.0 34.8
MMVU 53.9 58.7 51.5 51.0
CharadesSTA 61.4 56.0 32.8 5.0
NextQA 85.4 82.3 81.3 59.3
ActivityNetQA 65.2 63.7 60.1 --
Perception Test 78.0 72.7 72.7 --

粗体 表示对比模型中的最佳结果。

更多细节请参阅我们的论文。

引用

如果您发现Penguin-VL对您的研究和应用有帮助,请使用以下BibTeX引用:

bibtex 复制代码
@article{Penguin-VL,
  title={Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders},
  author={Boqiang Zhang and Lei Ke and Ruihan Yang and Qi Gao and Tianyuan Qu and Rossell Chen and Dong Yu and Leoweiliang},
  journal={arXiv preprint arXiv:2603.06569},
  year={2026}
}
相关推荐
海上彼尚几秒前
Nodejs也能写Agent - 6.基础篇 - Agent
前端·人工智能·后端·node.js
viperrrrrrrrrr71 分钟前
强化学习入门笔记
人工智能·强化学习
轻刀快马1 分钟前
AI 架构的文艺复兴:用操作系统“内存管理”重构 LLM 状态机 —— 深度解密 Claude Code
人工智能·架构
随身数智备忘录1 分钟前
拆解安全生产法三大核心功能,安全生产法如何解决责任不清与事故追责难
大数据·人工智能·安全
子榆.2 分钟前
CANN PyTorch适配器深度拆解:从.cuda()到.npu()到底发生了什么
人工智能·pytorch·python
renhongxia14 分钟前
从GPT到开源大模型
人工智能·gpt·生成对抗网络·语言模型·自然语言处理·开源
生成论实验室4 分钟前
WOLM在自动驾驶和机器人中究竟扮演什么角色?
人工智能·机器人·自动驾驶·创业创新·安全架构
码云骑士4 分钟前
Gemini赋能安全工程师:自动生成PoC脚本的技术实践
人工智能·安全
穗余6 分钟前
2026 AI x Web3 School共学营笔记-Day4
人工智能·区块链
谢白羽6 分钟前
Voicebox 深度指南:开源本地 AI 语音工作室完整评测与上手教程
人工智能·python·开源·tts·voicebox