M1芯片macOS安装Xinference部署大模型

如果你看的是官方手册:安装 --- Xinference

千万不要直接运行:

复制代码
pip install "xinference[all]"

会遇到几个问题:

1)Python版本如果太新可能安装失败

2)全量安装会失败

3)未科学上网可能会timeout

我目前的做法如下:

1)安装mini-conda

2)创建虚拟环境,Python指定3.11版本,并激活运行

复制代码
conda create -n xinference python=3.11
conda activate xinference

3)安装官方文档,运行不同的引擎,我推荐使用下面的:

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型,这是 Pytorch 模型默认使用的引擎:

复制代码
pip install "xinference[transformers]"

如果是M系列芯片的mac,还可以选择:

MLX 引擎

MLX-lm 用来在苹果 silicon 芯片上提供高效的 LLM 推理。

初始步骤:

复制代码
pip install "xinference[mlx]"

其他引擎大家自行选择。

完成引擎安装后,就可以运行了:

复制代码
xinference-local --host 0.0.0.0 --port 9997

后续访问 127.0.0.1:9997 即可进行配置;

如果是dify使用,先安装Xorbits Inference插件。

如果是docker部署,则大模型的服务器URL如下:

复制代码
http://host.docker.internal:9997