llama.cpp

https://github.com/echonoshy/cgft-llm

cgft-llm/llama-cpp/README.md at master · echonoshy/cgft-llm (github.com)

【大模型量化】- Llama.cpp轻量化模型部署及量化_哔哩哔哩_bilibili

复制代码
Release模式是直接运行,Debug模式是调试模型。

github.com/ggerganov/llama.cpp

复制代码
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit --local-dir /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF
复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
复制代码
cmake -B build_cpu
cmake --build build_cpu --config Release

cmake -B build_cuda -DLLAMA_CUDA=ON
cmake --build build_cuda --config Release -j 12

cd ~/code/llama.cpp/build_cuda/bin

./quantize --allow-requantize /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q4_1-v1.gguf Q4_1

python convert-hf-to-gguf.py /root/autodl-tmp/models/Llama3-8B-Chinese-Chat --outfile /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v1.gguf --outtype q8_0

相关推荐
阿猿收手吧!2 天前
【大模型】什么是大模型?vLLM是?模型部署?CUDA?
ai·llama
AI大模型2 天前
开源大模型全维度详解+实操部署(Mistral-、Gemma(Google)、Llama、Qwen),小白必看
llm·agent·llama
不会吉他的肌肉男不是好的挨踢男2 天前
LLaMA Factory 训练模型未检测到CUDA环境解决
python·ai·llama
TGITCIC2 天前
LLM推理引擎选型实战指南:用Transformers、llama.cpp 还是 vLLM 之争
transformer·llama·ai大模型·vllm·llama.cpp·大模型ai
被制作时长两年半的个人练习生3 天前
如何调试llama.cpp及判断是否支持RVV
linux·服务器·llama
小镇cxy4 天前
小模型微调过程记录
ai·llama
CV-杨帆5 天前
复现 LLama Guard Llama-Prompt-Guard-2-86M / Llama-Prompt-Guard-2-22M
llama
学习是生活的调味剂5 天前
LLaMA大模型家族发展介绍
人工智能·llama
love530love5 天前
【笔记】解决 Stable Diffusion WebUI 启动 “找不到llama_cpp模块”
运维·windows·笔记·python·stable diffusion·github·llama
同学小张7 天前
【端侧AI 与 C++】1. llama.cpp源码编译与本地运行
开发语言·c++·aigc·llama·agi·ai-native