【源力觉醒 创作者计划】文心开源大模型ERNIE-4.5系列与Qwen/DeepSeek/GPT-4横向深度测评报告

一起来轻松玩转文心大模型吧👉一文心大模型免费下载地址: https://ai.gitcode.com/theme/1939325484087291906

前言

最近百度正式开源文心大模型4.5系列,涵盖10款不同参数规模的模型,这些模型已可在GitCode代码托管平台进行下载,博主这里第一时间对文心开源模型和Qwen/DeepSeek/GPT-4等开源模型进行了横向对比测评。

一、文心开源模型(ERNIE 4.5)模型架构解析

我们从GitCode平台可以看到,百度此次开源的文心大模型有十多款,形成了从0.3B到424B参数的梯度覆盖,不仅包含文本模型还包含了视觉多模态模型(VLM),除最小的0.3B 模型外,其余模型都采用异构多模态MoE(专家混合模型:Mixture of Experts)架构。

百度开源的ERNIE 4.5模型是一种异构混合型,也就是通过"分而治之"策略提升模型性能的人工智能架构:将多个不同类型的专家模块集成在一起,每个输入仅激活部分相关的专家模块,从而在不显著增加计算量的前提下大幅提升模型容量。

1.1、异构多模态MoE架构

ERNIE 4.5采用异构模态专家混合架构,突破传统单一模态训练的局限:

  • 专家分工:模型包含文本专家、视觉专家和共享专家三类,文本专家处理语言理解,视觉专家专注图像特征提取,共享专家实现跨模态知识融合。
  • 参数隔离:视觉专家参数量仅为文本专家的三分之一,既保证视觉处理效率,又避免干扰文本能力。
  • 路由机制:通过模态隔离路由(Modality-Isolated Routing)和路由器正交损失(Router Orthogonal Loss),确保专家负载均衡,提升训练稳定性

1.2、适配器与多模态对齐

  • 时空压缩:通过空间(2x2补丁)和时间(序列长度减半)压缩,减少序列长度,提升处理效率。
  • 像素混洗(Pixel Shuffle):重新排列相邻token特征,结合MLP层处理,实现模态对齐到文本嵌入空间。
  • 统一模态处理:将静态图像视为合成两帧视频,统一图像和视频的时间建模。

1.3、多模态位置编码

采用了3D RoPE方案,独立编码时间、宽度和高度维度,低频分配给时间轴,剩余频率交错分配至空间轴,支持长视频理解及序列长度外推。

1.4、视觉编码器创新

  • 自适应分辨率:图像输入时独立调整宽高至ViT补丁大小的最近倍数,保留原始宽高比,避免固定分辨率导致的失真。
  • 2D RoPE编码:采用二维旋转位置嵌入(Rotary Position Embedding),分别编码高度和宽度维度的空间信息,提升图像空间理解能力。
  • 图像打包技术:高效处理多张图像,保持补丁间空间一致性,优化计算资源利用。

二、模型性能测评对比

本次测评的模型主要有开源的ERNIE-4.5系列(ERNIE-4.5-0.3B-Base, ERNIE-4.5-21B-A3B-Base, ERNIE-4.5-300B-A47B, ERNIE-4.5-VL-28B-A3B, ERNIE-4.5-VL-424B-A47B)以及其他主流开源模型:如Qwen3.0DeepSeekGPT4 等。

我们将分别从通用能力推理能力数学能力知识能力编码能力等五个维度来测评和对比模型的性能指标。

2.1、通用能力

从测评数据中看到ERNIE-4.5-300B-A47B模型在C-Eval、CMMLU等中文和多语言基准测试中的性能表现都是排名第1,显示出其在通用语言理解和生成方面的强大实力。

在通用能力方面,ERNIE-4.5系列模型对中文语境有着深刻的理解,这种优势来自于百度规模庞大且高质量的中文语料数据集上,在此语料库上进行进行的深度预训练,以及对中文特有的词法结构、句法规则和语义内涵进行的精细算法优化,使的文心模型在中文及多语言通用能力上实现了显著跃升。

  • C-Eval 大模型中文理解能力
  • CMMLU 中文语境下的知识和推理能力方面
  • MMLU 评估模型在多个任务上的语言理解能力


2.2、 推理能力

在模型的推理能力测评这一方面,我们可以从测评数据可以看到ERNIE-4.5-300B-A47B在BBH(Big-Bench Hard)、DROP等具有挑战性的常识推理与复杂推理基准上也表现优异,优于deepseek模型和GPT4模型,进一步展示了其处理复杂、多步骤推理问题的强大能力。

  • BBH:由Google、斯坦福等研究人员开发的数据集,包含大量复杂语言理解任务的集合,可能包含需要深度推理、常识运用或复杂认知技能的任务
  • DROP :评测任务的形式是让机器理解一个篇章,并回答篇章中的问题,但与其他大多数阅读理解评测任务不同,DROP主要考察模型的数学推理能力


2.3、 数学能力

在数学解题能力这一块,我们可以看到不同模型在CMath数学基准测试中得分是非常接近的,但ERNIE-4.5-300B-A47B会更高一些,展示其在逻辑思维、问题分解和逐步推理方面的优势。

当然Qwen3和DeepSeek系列模型在部分数学任务上也表现良好,基本都在94分以上,但ERNIE-4.5的整体表现更为均衡和领先,拿到了96.7分。可能源于其在训练过程中加入了更多的数学问题集,以及对思维链等推理范式的有效学习。

  • CMath: 模型在数学应用题中的解题能力

2.4、知识能力

在知识能力方面,ERNIE-4.5-300B-A47B在ChineseSimpleQA和SimpleQA等知识问答任务中展现出领先优势,尤其是在ChineseSimpleQA上,得分高达77.1,表明其拥有丰富的中文知识储备和问答能力。这清晰反映了模型经过海量知识学习后所具备的丰富中文知识库和精准问答能力。

  • SimpleQA :测量语言模型回答简短的事实性问题的能力
  • ChineseSimpleQA:评估大型语言模型在中文环境下回答简短问题事实性能力的基准测试,包含3000个高质量问题。

2.5 、编码能力

随着各类AI编程工具的不断创新应用,模型的代码生成能力也显得尤为重要。而且程序员群体大部分也会用到模型的编程能力来辅助开发。

从测评数据可以看到,ERNIE-4.5在HumanEval+和MBPP+等代码生成和理解任务中表现出色,与GPT4模型能力不相上下,其在HumanEval+上与GPT-4.1并列第一,得分92.1,充分证明了咱们国产开源模型的编码能力已达到和国外模型并肩水准。

  • HumanEval+ :包含164个精心设计的Python编程问题,这些问题通过一系列测试用例来检验代码LLMs在零样本条件下生成代码的能力
  • MBPP+:包含了500个编程问题,专注于评估模型在给定少量样本情况下的代码生成性能

2.6 总结

本次测评基于其官方技术报告及相关参考文献进行展开,根据以上测评指标,综合评估得出结论ERNIE-4.5系列模型在各项核心能力基准测试中的表现,其在通用语言能力、数学计算、逻辑推理、代码生成以及多模态理解方面均展现出业界领先的性能水平。

三、总结

百度开源文心4.5系列,不仅以多模态架构创新、高效训练体系构建及先进量化技术突破,彰显其在人工智能领域的技术领导力,更通过开源战略的深度实践,为全球大模型技术生态注入普惠动能。

文心是百度自主研发的产业级知识增强大模型,以创新性的知识增强技术为核心,从单模态大模型到跨模态、从通用基础大模型到跨领域、跨行业持续创新突破,构建了模型层、工具与平台层,百度开源文心大模型这一动作,大幅降低人工智能开发和应用门槛,加快人工智能大规模产业化进程并拓展人工智能技术边界。

相关推荐
中冕—霍格沃兹软件开发测试3 小时前
探索性测试:思维驱动下的高效缺陷狩猎
人工智能·科技·开源·appium·bug
草梅友仁4 小时前
草梅 Auth 1.12.0 发布与墨梅博客立项经验 | 2025 年第 50 周草梅周报
开源·github·ai编程
biotechbd6 小时前
基因功能研究:CD3与CD9
百度·微信公众平台
嗝o゚6 小时前
鸿蒙智慧屏与Flutter适配:无硬件功能的兼容处理
flutter·华为·开源·harmonyos
likeshop 好像科技8 小时前
新手学习AI智能体Agent逻辑设计的指引
人工智能·学习·开源·github
豆豆8 小时前
企业网站模板 开源企业网站模板 网页模板源码 整站网站源码
开源·cms·源码·建站系统·网站源码·网页源码·模板源码
嗝o゚9 小时前
开源鸿蒙 Flutter 应用包瘦身实战
flutter·华为·开源·harmonyos
中冕—霍格沃兹软件开发测试9 小时前
Git版本控制在测试项目管理中的应用
人工智能·git·科技·开源·appium·bug
武汉唯众智创12 小时前
高职510220开源技术与应用专业产教协同育人解决方案
开源·开源技术·开源技术与应用专业·开源技术与应用·开源开发·开源应用·开源技术与应用实训室
是毛毛吧12 小时前
豆包风波后的破局者:智谱 AutoGLM 让“AI 手机”走向公共基建
人工智能·智能手机·开源·github·开源软件