部署大模型

一:原模型

1.下载ollama

2.下载模型

复制代码
ollama run qwen2.5:7b-instruct   # 下载完就运行(终端对话)

# ollama run qwen2.5:7b-instruct-q4_K_M  
# 更小的量化模型

3.后续启动

复制代码
ollama run qwen2.5:7b-instruct

补充:在ollama图形界面部署,点击"+",找到模型下载路径

二:微调后的大模型

1.合并

lora权重+底座模型

复制代码
llamafactory-cli export \
--model_name_or_path /mnt/c/Users/hsp/.cache/modelscope/hub/models/Qwen/Qwen2.5-7B-Instruct \
--model_type qwen2 \
--template qwen \
--finetuning_type lora \
--lora_dir ./lora_qwen \
--export_dir ./full_model    # 完整模型

2.Ollama 只认 GGUF

工具

复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

转gguf

复制代码
python convert-hf-to-gguf.py ../full_model --outtype q4_K_M --outfile qwen2.5-finetuned.gguf

创建模型

复制代码
ollama create qwen2.5-mymodel -f- <<EOF
FROM qwen2.5-finetuned.gguf
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}<|im_end|>"""
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
EOF

部署

复制代码
ollama run qwen2.5-mymodel

三:删除模型

ollama

复制代码
ollama list

ollama rm qwen2.5:7b-instruct

modelscop

复制代码
rmdir /s /q C:\Users\hsp\.cache\modelscope  # 所有模型

modelscope clear-cache --model Qwen/Qwen2.5-7B-Instruct

rm -rf ~/.cache/modelscope   # 缓存
相关推荐
冬奇Lab11 小时前
Workflow 系列(01):基础理论——三种执行模型与 Anthropic 5 种模式
人工智能·agent·工作流引擎
冬奇Lab11 小时前
每日一个开源项目(第143篇):page-agent - 纯 JS 的网页 GUI Agent,无需截图、无需插件、无需后端
前端·人工智能·agent
程序员cxuan14 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
ZhengEnCi16 小时前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒16 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
不加辣椒17 小时前
第12章 工具调用与 Agent 提示工程
人工智能
用户16931761726617 小时前
前端给AI消息做日期分组与时间线
人工智能
i晟17 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户2527362781418 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩18 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent