intel显卡本地部署大模型

这份教程专门为 Intel Arc B580 (12GB) 用户定制。通过本教程，你可以将这显卡转化为一个强大的 AI 工作站，流畅运行 Google 最新的 Gemma 3 12B 模型。

第一阶段：系统环境整备（打地基）

在开始之前，请确保你的 Windows 系统干净且驱动最新。

更新驱动 (最关键) ：

前往 Intel 官网下载并安装最新的 Intel Arc Game On Driver（版本需高于 101.6000）。
卸载原版 Ollama：

如果你之前安装过官网的 Ollama，请去"控制面板"将其卸载。因为原版不支持 B580 加速，且会占用 11434 端口。
安装 Python 环境：

下载并安装 Miniforge，安装时勾选"Add to PATH"。

第二阶段：核心组件安装（点火）

打开 Miniforge Prompt（或 CMD），依次输入以下命令：

1. 创建专用环境

Bash

ini 复制代码

conda create -n b580_llm python=3.11 -y
conda activate b580_llm

2. 安装 Intel 优化库

为了防止报错，我们先装 NumPy，再装英特尔的 IPEX-LLM 加速库。

Bash

css 复制代码

pip install numpy==1.26.4
pip install --pre --upgrade ipex-llm[xpu_2.6] --extra-index-url https://download.pytorch.org/whl/xpu

第三阶段：部署 Intel 专用版 Ollama

下载：前往 IPEX-LLM Releases，下载文件名包含 ollama-ipex-llm-win.zip 的压缩包。
解压：建议解压到 D:\Ollama-IPEX（路径不要有中文）。
定位模型：
- 你的模型默认下载在 C:\Users\你的用户名.ollama\models。
- 记下这个路径，稍后脚本里要用到。

第四阶段：创建一键管理脚本 (懒人必备)

在 D:\Ollama-IPEX 文件夹（ollama.exe 所在位置）内，新建一个 B580_Manager.bat 文件，填入以下代码：

代码段

ini 复制代码

@echo off
setlocal enabledelayedexpansion
TITLE Intel Arc B580 LLM 管理器

:: --- 核心环境变量配置 ---
set OLLAMA_INTEL_GPU=1
set ONEAPI_DEVICE_SELECTOR=level_zero:0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
:: 修改下方路径为你的实际用户名
set OLLAMA_MODELS=C:\Users\你的用户名.ollama\models

:MENU
cls
echo ======================================================
echo          Intel Arc B580 AI 工作站控制台
echo ======================================================
echo  [1] 启动后端服务 (B580 加速模式)
echo  [2] 关闭后端服务 (释放显存)
echo  [3] 运行 Gemma 3 12B 对话
echo  [4] 查看 B580 运行状态 (ollama ps)
echo  [0] 退出
echo ======================================================
set /p choice=指令: 

if "%choice%"=="1" start /b ollama.exe serve && echo 服务已后台启动 && pause && goto MENU
if "%choice%"=="2" taskkill /f /im ollama.exe && echo 已关闭 && pause && goto MENU
if "%choice%"=="3" ollama run gemma3:12b && goto MENU
if "%choice%"=="4" ollama ps && pause && goto MENU
if "%choice%"=="0" exit
goto MENU

第五阶段：安装精致 UI (Cherry Studio)

下载：前往 Cherry Studio 官网下载并安装 Windows 版。
配置：
- 先运行上面的 B580_Manager.bat 选 $1$ 。
- 打开 Cherry Studio -> 设置 -> 模型服务 -> Ollama。
- API 地址保持 http://localhost:11434。
- 点击"刷新"，在模型列表选择 gemma3:12b。

进阶技巧：如何确认 B580 真的动了？

当你在 Cherry Studio 里提问时，按下 Ctrl + Shift + Esc 打开 任务管理器：

切换到性能选项卡。
找到 Intel Arc B580。
看显存：专用 GPU 内存应该占用约 9GB - 10GB。
看计算：Compute 0 曲线会有明显起伏。

常见坑点提醒

出字全是乱码/复读：通常是显卡驱动版本太低，请更新到 101.6000 以上。
显存溢出 (OOM) ：如果开了其他 3D 游戏，B580 显存不足会报错，请在运行模型前关闭游戏。
模型下载慢：可以在管理脚本里先选 $3$ ，让它在命令行里下完，再回 UI 使用。