ERNIE-4.5-VL：技术解密+应用实战，解锁多模态新场景！

百度Geek说2025-08-28 14:41

当人工智能进入深度应用的黄金时代，单一模态的局限正被多模态交互彻底打破。文心 ERNIE-4.5-VL 视觉语言模型（ ERNIE-4.5-VL-28B-A3B；ERNIE-4.5-VL-424B-A47B ）以突破性的图文、视频理解与推理能力，架起数字世界与物理世界的智能桥梁，更支持100+语言交互，让跨模态智能触手可及。

实验结果表明，轻量级视觉语言模型 ERNIE-4.5-VL-28B-A3B 的激活参数显著减少，但与 Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 等模型相比，其在大多数基准测试中仍具有竞争力，甚至表现更优。

ERNIE-4.5-VL 模型支持128K 上下文长度，结合"思考模式"与"非思考模式"双选项，既能快速响应基础任务，又能深度破解复杂问题，灵活适配从日常场景到专业领域的全场景需求。

ERNIE-4.5-VL 的跨模态能力覆盖以下核心任务场景：

▎相关链接

■ 文心大模型技术 Blog（含技术报告下载）：

yiyan.baidu.com/blog/posts/...

■ 文心4.5系列模型下载

Hugging Face：huggingface.co/baidu
飞桨星河社区：aistudio.baidu.com/modelsoverv...
GitHub：github.com/PaddlePaddl...
魔搭社区：modelscope.cn/models/deng...

■ 文心4.5系列模型训练部署

ERNIEKit：github.com/PaddlePaddl...
FastDeploy：github.com/PaddlePaddl...