开源新王MiniMax -M1 vLLM本地部署教程:百万级上下文支持成大模型领域新标杆!

一、模型介绍

MiniMax-M1 是由中国 AI 公司 MiniMax 于 2025 年 6 月 17 日推出的 全球首个开源大规模混合架构推理模型,凭借其百万级上下文支持、超高效计算性能和突破性成本表现,成为大模型领域的新标杆。

MiniMax-M1 型号可以在配备 8 个 H800 或 8 个 H20 GPU 的单个服务器上高效运行。在硬件配置方面,配备 8 个 H800 GPU 的服务器可以处理多达 200 万个令牌的上下文输入,而配备 8 个 H20 GPU 的服务器可以支持高达 500 万个令牌的超长上下文处理能力。

二、部署教程

获取 MiniMax 模型

MiniMax-M1 模型获取

从 HuggingFace 存储库下载模型:MiniMax-M1-40kMiniMax-M1-80k

下载命令:

bash 复制代码
pip install -U huggingface-hub
huggingface-cli download MiniMaxAI/MiniMax-M1-40k
# huggingface-cli download MiniMaxAI/MiniMax-M1-80k

# If you encounter network issues, you can set a proxy
export HF_ENDPOINT=https://hf-mirror.com

或使用 git 下载:

bash 复制代码
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-M1-40k
git clone https://huggingface.co/MiniMaxAI/MiniMax-M1-80k

⚠️ 重要提示 :请确保您的系统已安装 Git LFS,这是完全下载模型权重文件所必需的。

部署选项

选项 1:使用 Docker 部署(推荐)

为了保证部署环境的一致性和稳定性,我们建议使用 Docker 进行部署。

⚠️ 版本要求

  • MiniMax-M1 型号需要 vLLM 版本 0.8.3 或更高版本才能获得完全支持

  • 如果您使用的 Docker 映像的 vLLM 版本低于所需版本,则需要:

    1. 更新到最新的 vLLM 代码
    2. 从源重新编译 vLLM。按照常见问题部分的解决方案 2 中的编译说明进行作
  • 特别说明:对于 0.8.3 和 0.9.2 之间的 vLLM 版本,您需要修改模型配置:

    1. 打开config.json
    2. 更改为config['architectures'] = ["MiniMaxM1ForCausalLM"]``config['architectures'] = ["MiniMaxText01ForCausalLM"]
  1. 获取容器映像:
bash 复制代码
docker pull vllm/vllm-openai:v0.8.3
  1. 运行容器:
ini 复制代码
# Set environment variables
IMAGE=vllm/vllm-openai:v0.8.3
MODEL_DIR=<model storage path>
CODE_DIR=<code path>
NAME=MiniMaxImage

# Docker run configuration
DOCKER_RUN_CMD="--network=host --privileged --ipc=host --ulimit memlock=-1 --shm-size=2gb --rm --gpus all --ulimit stack=67108864"

# Start the container
sudo docker run -it \
    -v $MODEL_DIR:$MODEL_DIR \
    -v $CODE_DIR:$CODE_DIR \
    --name $NAME \
    $DOCKER_RUN_CMD \
    $IMAGE /bin/bash

选项 2:直接安装 vLLM

如果您的环境满足以下要求:

  • CUDA 12.1 的
  • PyTorch 2.1 版本

您可以直接安装 vLLM

安装命令:

复制代码
pip install vllm

💡 如果您使用的是其他环境配置,请参阅 vLLM 安装指南

启动服务

启动 MiniMax-M1 服务

css 复制代码
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server \
--model <model storage path> \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8  \
--max_model_len 4096 \
--dtype bfloat16

API 调用示例

arduino 复制代码
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "MiniMaxAI/MiniMax-M1",
        "messages": [
            {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
            {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
        ]
    }'

❗ 常见问题

模块加载问题

如果您遇到以下错误:

arduino 复制代码
import vllm._C  # noqa
ModuleNotFoundError: No module named 'vllm._C'

csharp 复制代码
MiniMax-M1 model is not currently supported

提供两种解决方案:

解决方案 1:复制依赖项文件

bash 复制代码
cd <working directory>
git clone https://github.com/vllm-project/vllm.git
cd vllm
cp /usr/local/lib/python3.12/dist-packages/vllm/*.so vllm 
cp -r /usr/local/lib/python3.12/dist-packages/vllm/vllm_flash_attn/* vllm/vllm_flash_attn
解决方案 2:从源安装

bash 复制代码
cd <working directory>
git clone https://github.com/vllm-project/vllm.git

cd vllm/
pip install -e .
相关推荐
Dfreedom.19 小时前
图像滤波:非线性滤波与边缘保留技术
图像处理·人工智能·opencv·计算机视觉·非线性滤波·图像滤波
修己xj19 小时前
FossFLOW:开源等距图表工具,为技术文档注入立体活力!
开源
兆龙电子单片机设计19 小时前
【STM32项目开源】STM32单片机多功能电子秤
stm32·单片机·开源·毕业设计·智能家居
小白跃升坊20 小时前
基于1Panel的AI运维
linux·运维·人工智能·ai大模型·教学·ai agent
kicikng20 小时前
走在智能体前沿:智能体来了(西南总部)的AI Agent指挥官与AI调度官实践
人工智能·系统架构·智能体协作·ai agent指挥官·ai调度官·应用层ai
向哆哆20 小时前
高校四六级报名管理系统的考试信息模块实现:Flutter × OpenHarmony 跨端开发实践
flutter·开源·鸿蒙·openharmony·开源鸿蒙
测试者家园20 小时前
测试用例智能生成:是效率革命,还是“垃圾进,垃圾出”的新挑战?
人工智能·职场和发展·测试用例·测试策略·质量效能·智能化测试·用例设计
GIS瞧葩菜20 小时前
Cesium 轴拖拽 + 旋转圈拖拽 核心数学知识
人工智能·算法·机器学习
njsgcs20 小时前
dqn和cnn有什么区别 dqn怎么保存训练经验到本地
人工智能·神经网络·cnn
AndrewHZ20 小时前
【AI黑话日日新】什么是AI智能体?
人工智能·算法·语言模型·大模型·llm·ai智能体