文心开源大模型ERNIE-4.5-0.3B-Paddle私有化部署保姆级教程及技术架构探索

一起来轻松玩转文心大模型吧👉一文心大模型免费下载地址: https://ai.gitcode.com/theme/1939325484087291906

前言

2025年6月30日，百度正式开源文心大模型4.5系列（ERNIE 4.5），涵盖10款不同参数规模的模型，包括了47B（470亿）、3B（30亿）激活参数的异构混合专家架构多模态MoE大模型，及0.3B（3亿）参数的稠密型模型，预训练权重与推理代码均完全开放。除此之外还提供完整的ERNIEKit微调工具链和FastDeploy推理框架，兼容主流生态，适用于各种业务场景。

目前，这些模型已可在GitCode代码托管平台进行下载，博主这里也是第一时间对文心开源模型ERNIE-4.5-0.3B-Paddle进行了私有化部署测评。

二、文心开源大模型私有化部署

从GitCode平台可以看到，百度此次开源的文心大模型有十多款，形成了从0.3B到424B参数的梯度覆盖，不仅包含文本模型还包含了视觉多模态模型（VLM），除最小的0.3B 模型外，其余模型都采用异构多模态MoE（专家混合模型：Mixture of Experts）架构。

这里咱们选择的是ERNIE-4.5-0.3B-Paddle大模型，只包含了3亿参数量，属于一个轻量化模型，可以进行本地部署，对显卡要求没有300B或者28、21B参数的模型（需要80G显卡）要求高。

1、准备好系统镜像和显卡

博主这里准备是英伟达的4090显卡（24G显存），用来跑ERNIE-4.5-0.3B-Paddle的轻量化模型是足够的。

操作镜像，这里准备的是Ubuntu 20.04系统，加上必要的环境CUDA12\Python3.10等，如下图所示：

2、下载huggingface-cli

huggingface-cli 是 Hugging Face 官方提供的命令行工具，自带完善的下载模型功能

bash 复制代码

pip install -U huggingface_hub

3、如果下载受限制，可以设置以下国内环境变量，

bash 复制代码

2. 设置环境变量
Linux
export HF_ENDPOINT=https://hf-mirror.com

Windows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"

建议将上面这一行写入 ~/.bashrc。

4、下载大模型

我们选择的是ERNIE-4.5-0.3B-Paddle大模型

下载命令：

bash 复制代码

#cDownload Model
huggingface-cli download baidu/ERNIE-4.5-0.3B-Paddle --local-dir baidu/ERNIE-4.5-0.3B-Paddle

5、下载 paddlepaddle-gpu

bash 复制代码

#注意这里的版本需要根据自己的cuda的版本去定

python3 -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
Looking in indexes: https://www.paddlepaddle.org.cn/packages/stable/cu118/

6、下载fastdeploy-gpu

FastDeploy的安装按这个文档，不要直接pip install，有要求，你的显卡选择对应命令，

下载地址：https://paddlepaddle.github.io/FastDeploy/get_started/installation/nvidia_gpu/

bash 复制代码

#1、如果是 For SM86/89 architecture GPUs(e.g A10/4090/L20/L40):

执行这个命令：
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

#2、如果是For SM80/90 architecture GPUs(e.g A30/A100/H100/):

执行这个命令
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

7、运行模型

bash 复制代码

python -m fastdeploy.entrypoints.openai.api_server \
       --model baidu/ERNIE-4.5-0.3B-Paddle \
       --port 8180 \
       --metrics-port 8181 \
       --engine-worker-queue-port 8182 \
       --max-model-len 32768 \
       --max-num-seqs 32

8、成功运行提示

bash 复制代码

Launching metrics service at http://0.0.0.0:8181/metrics

到这一步，咱们的模型就算部署成功了，咱们接下来，写一个测试脚本，看看模型提供的API接口能否调用成功。

9、编写脚本测试调用 test.py

test.py 测试脚本如下所示：

py 复制代码

import openai
host = "0.0.0.0"
port = "8180"
client = openai.Client(base_url=f"http://{host}:{port}/v1", api_key="null")

response = client.chat.completions.create(
    model="null",
    messages=[
        {"role": "system", "content": "你是一位电商售后客服专家，擅长处理客户售后服务问题，对产品使用体验、物流配送、售后服务、退换货流程和日常保养等都有丰富的实践经验。"},
        {"role": "user", "content": "请问一般的产品售后有哪些保障，如何退换货？."},
    ],
    stream=True,
)
for chunk in response:
    if chunk.choices[0].delta:
        print(chunk.choices[0].delta.content, end='')
print('\n')

10、大模型回答

运行命令：python test.py

大模型调用成功请求日志

到这里我们的大模型就私有化部署成功了。

对于算力有限的中小开发者，0.3B参数的稠密型模型可降低部署门槛，MoE模型则能满足企业级复杂任务的需求。这种分层供给思路，让不同资源条件的使用者都能找到适配的工具。

三、文心开源大模型官方Benchmark(基准测试)对比

因为算力有限，博主这里找到百度官方来做的基准测试图，我们可以看到文心4.5系列21B和30B的多模态大模型在Benchmark测评上与其他开源模型相比,优秀的效果体现。

大模型的Benchmark（基准测试）是用于评估和比较大型机器学习模型（如GPT、DeepSeek、PaLM等）性能的一系列标准化任务、数据集和评价指标，常用来作为评价模型质量的标准之一。

四、文心开源大模型（ERNIE 4.5）核心技术架构探索

与常规的单模态MoE不同，此次百度开源的ERNIE 4.5模型是一种异构混合型，也就是通过"分而治之"策略提升模型性能的人工智能架构：将多个不同类型的专家模块集成在一起，每个输入仅激活部分相关的专家模块，从而在不显著增加计算量的前提下大幅提升模型容量。

我们选择一个ERNIE-4.5-21B-A3B-Base-Paddle,21b参数的开源模型的工程目录点击进去查看，如下图所示

文心开源大模型（ERNIE 4.5）核心技术包含以下几点:

1、异构多模态MoE架构：

异构多模态：

多模态：模型能"看懂"图片、"听懂"语音、"读懂"文字，还能把三者结合起来理解（比如看到一张"猫在沙发上"的图片，能生成对应的文字描述）。

异构：不同任务由不同的"专家模块"处理，比如文本任务由"语言专家"负责，图片任务由"视觉专家"负责，避免"一刀切"导致的效率低下。

MoE（专家混合模型）：

原理：模型内部有多个"专家"（类似不同领域的专家），输入数据时，系统会自动分配给最擅长的专家处理。

优势：避免单一模型"什么都做但都不精"的问题，同时通过动态激活专家，减少计算量，提升效率。

2、多模态混合专家模型预训练

通过模态隔离路由和异构专家并行策略，实现文本与视觉模态的联合训练，避免模态间干扰

3、ERNIE 4.5的架构设计理念分析

专家分工：三类专家各司其职

文本专家：专注处理语言任务（如翻译、写文章、代码生成）。

视觉专家：优化图片/视频处理（如识别物体、分析场景）。

共享专家：捕捉跨模态的通用特征（比如文字和图片的关联性）。
动态路由：智能分配任务

门控网络：相当于"任务调度员"，根据输入内容（文本/图片/视频）自动选择最合适的专家组合。

稀疏激活：每个任务只激活少量专家（比如处理文本时，主要用文本专家，少量用共享专家），减少计算量。
效率优化：又快又省

自适应分辨率：视觉专家支持任意尺寸图片输入，避免裁剪导致的细节丢失。

混合精度训练：用更低的计算资源训练更大模型，成本降低但性能不降。

专家并行：分布式训练中，专家模块分布在不同设备，提升训练速度。

4、对比传统模型：ERNIE 4.5的优势

ERNIEKit开发套件：覆盖微调（SFT）、对齐（DPO）到量化的全流程开发。
FastDeploy部署工具：解决多硬件平台高效推理问题，降低部署门槛。

维度	传统模型	ERNIE 4.5
处理模态	单一模态（如只能处理文本）	多模态（文本+图片+视频）
计算效率	高（可能浪费资源）	低（动态激活专家）
专业性	泛泛而谈	各领域专家精准处理
部署难度	高（需复杂调优）	低（配套工具链支持）

五、项目总结

百度开源文心4.5系列，不仅以多模态架构创新、高效训练体系构建及先进量化技术突破，彰显其在人工智能领域的技术领导力，更通过开源战略的深度实践，为全球大模型技术生态注入普惠动能。此次开源犹如为智能革命装上涡轮引擎，当技术民主化的浪潮冲破产业壁垒，真正受益的将是扎根开源沃土的万千创新者------他们以效率为刃，正在智能时代的画布上勾勒出前所未有的创新图景。这场由技术普惠驱动的变革，不仅重构了AI开发范式，更在产业升级的深水区开辟出一条由开放创新引领的智能进化之路。

文心是百度自主研发的产业级知识增强大模型，以创新性的知识增强技术为核心，从单模态大模型到跨模态、从通用基础大模型到跨领域、跨行业持续创新突破，构建了模型层、工具与平台层，百度开源文心大模型这一动作，大幅降低人工智能开发和应用门槛，加快人工智能大规模产业化进程并拓展人工智能技术边界。

一起来轻松玩转文心大模型吧👉一文心大模型免费下载地址: https://ai.gitcode.com/theme/1939325484087291906

文心开源大模型ERNIE-4.5-0.3B-Paddle私有化部署保姆级教程及技术架构探索

前言

二、文心开源大模型私有化部署

1、准备好系统镜像和显卡

2、下载huggingface-cli

3、如果下载受限制，可以设置以下国内环境变量，

4、下载大模型

5、下载 paddlepaddle-gpu

6、下载fastdeploy-gpu

7、运行模型

8、成功运行提示

9、编写脚本测试调用 test.py

10、大模型回答

三、文心开源大模型官方Benchmark(基准测试)对比

四、文心开源大模型（ERNIE 4.5）核心技术架构探索

1、异构多模态MoE架构：

2、多模态混合专家模型预训练

3、ERNIE 4.5的架构设计理念分析

4、 对比传统模型：ERNIE 4.5的优势

五、项目总结

4、对比传统模型：ERNIE 4.5的优势