本地部署Ollama及部署模型

Ollama:是一款旨在简化大模型语言模型本地部署和运行过程的开源软件。

ollama提供一个轻量级、易扩展的框架,让开发者可以在本地机器构建和管理LLMs(大语言模型)

通过ollama,开发者可以导入和定制自己的模型,无需关注复杂的底层实现细节。

简单来说,就是在自己电脑部署和运行大模型,由自己电脑的硬件提供算力支撑模型运行。

1.1Ollama下载安装

https://ollama.com/download

下载后默认安装路径是C盘,可以使用命令,修改安装路径

复制代码
OllamaSetup.exe /DIR="D:\tools\Ollama\Models"

安装后,可以输入,查看安装的版本号

复制代码
Ollama -v

接下就可以拉取模型,可以拉取

复制代码
ollama pull deepseek-r1:8b
ollama pull qwen3:8b
ollama list

开源的文本嵌入模型工具

复制代码
ollama pull nomic-embed-text
复制代码
ollama run deepseek-r1:8b "你好,请做一个简单的自我介绍"

总结:

Ollama部署:在官网下载并安装客户端即可

蒸馏模型就是对标准大模型核心技能的学习,并进行瘦身,从而获得更低的性能要求。

简单来说蒸馏模型就是标准大模型的学生,学到了老师的核心本领,但是没有老师强。根据参数量的不同,参数量越大,蒸馏模型学到老师核心本领就越扎实,性能越好。

集显:1.5b左右

4G独显:8b以内

8G独显:14b以内

相关推荐
zhangfeng113311 小时前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
SpikeKing1 天前
LLM - 支持 Hermes 智能体的 vLLM 部署 Qwen3.5 与 Qwen3.6 方案
llm·vllm·qwen3.5·hermes·qwen3.6
zhojiew2 天前
在Ray集群中使用vLLM部署LLM模型并集成Prometheus和Grafana进行指标观测的实践
grafana·prometheus·vllm
不吃天鹅肉2 天前
PaddleOCR-VL + vLLM 高性能推理实践:踩坑与调优全记录
人工智能·语言模型·svm·vllm
张忠琳2 天前
【vllm】(vllm kv_offload)vLLM V1 KV Offload—(二)核心业务逻辑逐行解析
ai·架构·vllm
张忠琳3 天前
【vllm】(v1 Attention)vLLM V1 Attention—Part1 架构总览与核心调度
ai·架构·vllm
张忠琳3 天前
【vllm】(v1 Attention)vLLM V1 Attention— Part2 标准Attention后端实现
ai·架构·vllm
lazyn3 天前
vLLM 目前尚无法支持 Codex CLI:Responses API 兼容性问题的深度剖析与修复跟踪
python·大模型·codex·vllm
张忠琳3 天前
【vllm】(v1 Sample)vLLM V1 Sample—Part 3 投机采样拒绝器与Triton Kernel
java·数据库·vllm
张忠琳3 天前
【vllm】(v1 Attention)vLLM V1 Attention— Part3 MLA后端体系
ai·架构·vllm