llama.cpp

https://github.com/echonoshy/cgft-llm

cgft-llm/llama-cpp/README.md at master · echonoshy/cgft-llm (github.com)

【大模型量化】- Llama.cpp轻量化模型部署及量化_哔哩哔哩_bilibili

复制代码
Release模式是直接运行,Debug模式是调试模型。

github.com/ggerganov/llama.cpp

复制代码
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit --local-dir /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF
复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
复制代码
cmake -B build_cpu
cmake --build build_cpu --config Release

cmake -B build_cuda -DLLAMA_CUDA=ON
cmake --build build_cuda --config Release -j 12

cd ~/code/llama.cpp/build_cuda/bin

./quantize --allow-requantize /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q4_1-v1.gguf Q4_1

python convert-hf-to-gguf.py /root/autodl-tmp/models/Llama3-8B-Chinese-Chat --outfile /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v1.gguf --outtype q8_0

相关推荐
高兴就好(石6 小时前
Mac使用llama.cpp
macos·llama
zhangfeng113318 小时前
No space left on device (28) llamafactory微调训练的时候 报错,需要调节 dataloader_num_workers
人工智能·语言模型·llama
阿珊和她的猫19 小时前
大模型在客服场景:落地路径 + 效果评估
ai·agent·llama·cli·mcp
谷子熟了2 天前
电商智能客服系统本地搭建
经验分享·docker·typescript·ai编程·llama
YXHPY2 天前
开源 AI 工作流底座正在加速:从 llama.cpp、Ollama 到 vLLM 与 Agent 编排
人工智能·开源·llama
佳xuan3 天前
llama微调后大模型测评
llama
佳xuan4 天前
LLama_Factory配置及模型微调实践
llama
zhangfeng11334 天前
LLaMA-Factory 在训练模型时检查点(Checkpoint)文件说明
人工智能·深度学习·llama
ONE_SIX_MIX4 天前
最先进llama.cpp量化方法PK,APEX vs UD_XL,在 Qwen3.6-35B-A3B 中爆发! 2026年4月
apex·llama·量化·unsloth
天地沧海7 天前
GPT、BERT、LLaMA 这些模型类别怎么区分
gpt·bert·llama