window11 部署llama.cpp并运行Qwen2-0.5B-Instruct-GGUF

吾名爱妃,性好静亦好动。好编程,常沉浸于代码之世界,思维纵横,力求逻辑之严密,算法之精妙。亦爱篮球,驰骋球场,尽享挥洒汗水之乐。且喜跑步,尤钟马拉松,长途奔袭,考验耐力与毅力,每有所进,心甚喜之。

吾以为,编程似布阵,算法如谋略,需精心筹谋,方可成就佳作。篮球乃团队之艺,协作共进,方显力量。跑步与马拉松,乃磨炼身心之途,愈挫愈勇,方能达至远方。愿交志同道合之友,共探此诸般妙趣。

诸君,此文尚佳,望点赞收藏,谢之!

  1. 下载llama.cpp框架编译环境(llama.cpp/docs/build.md at master · ggerganov/llama.cpp · GitHub):
  1. 下载w64devkit:Releases · skeeto/w64devkit · GitHub
  1. 解压后直接运行w64devkit.exe:
  1. 下载llama.cp源码:

    git clone https://github.com/ggerganov/llama.cpp

进入llama.cpp目录,执行make命令:

  1. 运行后,在llama.cpp目录找到llama-cli.exe表示安装成功
  1. 下载Qwen2-0.5B-Instruct-GGUF格式模型:魔搭社区

7.在llama-cli.exe文件所在目录新建chat-with-qwen.txt文件,内容为:You are a helpful assistant.

在llama-cli.exe文件所在目录打开命中行,执行:

复制代码
llama-cli.exe -m ..\Qwen2-0.5B-Instruct-GGUF\qwen2-0_5b-instruct-q5_k_m.gguf -n 512 -co -i -if -f chat-with-qwen.txt --in-prefix "<|im_start|>user\n" --in-suffix "<|im_end|>\n<|im_start|>assistant\n" -ngl 24

结果:

可以进行交互了~

  1. 以服务的形式运行模型:

    llama-server.exe -m ..\Qwen2-0.5B-Instruct-GGUF\qwen2-0_5b-instruct-q5_k_m.gguf -ngl 24 -fa

结果:

启动成功,使用postman测试:

相关推荐
wei_shuo3 小时前
Llama-2-7b 昇腾 NPU 测评总结:核心性能数据、场景适配建议与硬件选型参考
大模型·llama·昇腾
凯子坚持 c3 小时前
Llama-2-7b在昇腾NPU上的六大核心场景性能基准报告
java·开发语言·llama
落798.3 小时前
【在昇腾NPU上部署Llama-2-7B:从环境配置到性能测试的完整实战】
经验分享·llama·1024程序员节
缘友一世4 小时前
LLama 3分组查询注意力与KV缓存机制
人工智能·深度学习·缓存·transformer·llama·gqa·kv缓存
skywalk81631 天前
在Ubuntu Linux安装brew 使用brew安装llama.cpp 运行文心Ernie大模型
人工智能·ubuntu·llama·ernie·brew·1024程序员节
七宝大爷2 天前
大模型是什么?从 GPT 到 LLaMA 的核心概念解析
gpt·llama
倔强的石头1063 天前
昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽
大模型·llama·昇腾
码农阿豪4 天前
在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南
llama
Qiuner4 天前
快速入门LangChain4j Ollama本地部署与阿里百炼请求大模型
语言模型·langchain·nlp·llama·ollama
辣大辣条5 天前
LLAMA-Factory Qwen3-1.7b模型微调
llama