部署大模型

一:原模型

1.下载ollama

2.下载模型

复制代码
ollama run qwen2.5:7b-instruct   # 下载完就运行(终端对话)

# ollama run qwen2.5:7b-instruct-q4_K_M  
# 更小的量化模型

3.后续启动

复制代码
ollama run qwen2.5:7b-instruct

补充:在ollama图形界面部署,点击"+",找到模型下载路径

二:微调后的大模型

1.合并

lora权重+底座模型

复制代码
llamafactory-cli export \
--model_name_or_path /mnt/c/Users/hsp/.cache/modelscope/hub/models/Qwen/Qwen2.5-7B-Instruct \
--model_type qwen2 \
--template qwen \
--finetuning_type lora \
--lora_dir ./lora_qwen \
--export_dir ./full_model    # 完整模型

2.Ollama 只认 GGUF

工具

复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

转gguf

复制代码
python convert-hf-to-gguf.py ../full_model --outtype q4_K_M --outfile qwen2.5-finetuned.gguf

创建模型

复制代码
ollama create qwen2.5-mymodel -f- <<EOF
FROM qwen2.5-finetuned.gguf
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}<|im_end|>"""
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
EOF

部署

复制代码
ollama run qwen2.5-mymodel

三:删除模型

ollama

复制代码
ollama list

ollama rm qwen2.5:7b-instruct

modelscop

复制代码
rmdir /s /q C:\Users\hsp\.cache\modelscope  # 所有模型

modelscope clear-cache --model Qwen/Qwen2.5-7B-Instruct

rm -rf ~/.cache/modelscope   # 缓存
相关推荐
AI服务老曹1 小时前
深度架构解析:如何构建兼容 X86/ARM 及异构计算(GPU/NPU)的级联级 AI 视频管理平台
arm开发·人工智能·架构
哦哦~9211 小时前
揭示多功能合成界面,增强致密厚复合电极的机械和电化学性能
服务器·网络·人工智能
企业架构师老王1 小时前
注册审批申报材料自动校验:如何利用实在Agent构建非侵入式架构并降低数据误报率?
大数据·人工智能·ai·架构
吃鱼的灰太狼1 小时前
Hermes 全配置指南:从裸版到 AI Agent 天花板
人工智能
HoneyMoose2 小时前
Discourse 提供 AI 总结功能
人工智能
三维频道2 小时前
深度解析:3D-DIC技术如何精准表征复合材料的变形与损伤演化?
人工智能·计算机视觉·3d·全场应变测量·dic技术·新拓三维·复合材料力学表征
NebulaData2 小时前
GPT-image 2 重磅上线,Nebula Lab 带您解锁 AI 创意新可能(附提示词版)
人工智能
GISer_Jing2 小时前
Dify可视化编排:技术架构与实战指南
前端·人工智能·ai编程
李可以量化2 小时前
Python之如何做出交易日历(上)
人工智能·算法·qmt·量化 qmt ptrade