开源新王MiniMax -M1 vLLM本地部署教程:百万级上下文支持成大模型领域新标杆!

一、模型介绍

MiniMax-M1 是由中国 AI 公司 MiniMax 于 2025 年 6 月 17 日推出的 全球首个开源大规模混合架构推理模型,凭借其百万级上下文支持、超高效计算性能和突破性成本表现,成为大模型领域的新标杆。

MiniMax-M1 型号可以在配备 8 个 H800 或 8 个 H20 GPU 的单个服务器上高效运行。在硬件配置方面,配备 8 个 H800 GPU 的服务器可以处理多达 200 万个令牌的上下文输入,而配备 8 个 H20 GPU 的服务器可以支持高达 500 万个令牌的超长上下文处理能力。

二、部署教程

获取 MiniMax 模型

MiniMax-M1 模型获取

从 HuggingFace 存储库下载模型:MiniMax-M1-40kMiniMax-M1-80k

下载命令:

bash 复制代码
pip install -U huggingface-hub
huggingface-cli download MiniMaxAI/MiniMax-M1-40k
# huggingface-cli download MiniMaxAI/MiniMax-M1-80k

# If you encounter network issues, you can set a proxy
export HF_ENDPOINT=https://hf-mirror.com

或使用 git 下载:

bash 复制代码
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-M1-40k
git clone https://huggingface.co/MiniMaxAI/MiniMax-M1-80k

⚠️ 重要提示 :请确保您的系统已安装 Git LFS,这是完全下载模型权重文件所必需的。

部署选项

选项 1:使用 Docker 部署(推荐)

为了保证部署环境的一致性和稳定性,我们建议使用 Docker 进行部署。

⚠️ 版本要求

  • MiniMax-M1 型号需要 vLLM 版本 0.8.3 或更高版本才能获得完全支持

  • 如果您使用的 Docker 映像的 vLLM 版本低于所需版本,则需要:

    1. 更新到最新的 vLLM 代码
    2. 从源重新编译 vLLM。按照常见问题部分的解决方案 2 中的编译说明进行作
  • 特别说明:对于 0.8.3 和 0.9.2 之间的 vLLM 版本,您需要修改模型配置:

    1. 打开config.json
    2. 更改为config['architectures'] = ["MiniMaxM1ForCausalLM"]``config['architectures'] = ["MiniMaxText01ForCausalLM"]
  1. 获取容器映像:
bash 复制代码
docker pull vllm/vllm-openai:v0.8.3
  1. 运行容器:
ini 复制代码
# Set environment variables
IMAGE=vllm/vllm-openai:v0.8.3
MODEL_DIR=<model storage path>
CODE_DIR=<code path>
NAME=MiniMaxImage

# Docker run configuration
DOCKER_RUN_CMD="--network=host --privileged --ipc=host --ulimit memlock=-1 --shm-size=2gb --rm --gpus all --ulimit stack=67108864"

# Start the container
sudo docker run -it \
    -v $MODEL_DIR:$MODEL_DIR \
    -v $CODE_DIR:$CODE_DIR \
    --name $NAME \
    $DOCKER_RUN_CMD \
    $IMAGE /bin/bash

选项 2:直接安装 vLLM

如果您的环境满足以下要求:

  • CUDA 12.1 的
  • PyTorch 2.1 版本

您可以直接安装 vLLM

安装命令:

复制代码
pip install vllm

💡 如果您使用的是其他环境配置,请参阅 vLLM 安装指南

启动服务

启动 MiniMax-M1 服务

css 复制代码
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server \
--model <model storage path> \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8  \
--max_model_len 4096 \
--dtype bfloat16

API 调用示例

arduino 复制代码
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "MiniMaxAI/MiniMax-M1",
        "messages": [
            {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
            {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
        ]
    }'

❗ 常见问题

模块加载问题

如果您遇到以下错误:

arduino 复制代码
import vllm._C  # noqa
ModuleNotFoundError: No module named 'vllm._C'

csharp 复制代码
MiniMax-M1 model is not currently supported

提供两种解决方案:

解决方案 1:复制依赖项文件

bash 复制代码
cd <working directory>
git clone https://github.com/vllm-project/vllm.git
cd vllm
cp /usr/local/lib/python3.12/dist-packages/vllm/*.so vllm 
cp -r /usr/local/lib/python3.12/dist-packages/vllm/vllm_flash_attn/* vllm/vllm_flash_attn
解决方案 2:从源安装

bash 复制代码
cd <working directory>
git clone https://github.com/vllm-project/vllm.git

cd vllm/
pip install -e .
相关推荐
秋915 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
lularible15 小时前
从沙子到车辙(7.4):《兰亭集序》的启示
开源·嵌入式·汽车电子
啦啦啦_999915 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke15 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD15 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring
Soari15 小时前
开源项目解析 openmed —— 面向医疗智能应用的 OpenMed 开源平台
开源
tq108616 小时前
基于SLIP的防幻觉的指南
人工智能
甲维斯16 小时前
Kimi版超级玛丽效果“惊人”,配额不足5厘米!
前端·人工智能
console.log('npc')17 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋917 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python