llama.cpp

https://github.com/echonoshy/cgft-llm

cgft-llm/llama-cpp/README.md at master · echonoshy/cgft-llm (github.com)

【大模型量化】- Llama.cpp轻量化模型部署及量化_哔哩哔哩_bilibili

复制代码
Release模式是直接运行,Debug模式是调试模型。

github.com/ggerganov/llama.cpp

复制代码
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit --local-dir /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF
复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
复制代码
cmake -B build_cpu
cmake --build build_cpu --config Release

cmake -B build_cuda -DLLAMA_CUDA=ON
cmake --build build_cuda --config Release -j 12

cd ~/code/llama.cpp/build_cuda/bin

./quantize --allow-requantize /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q4_1-v1.gguf Q4_1

python convert-hf-to-gguf.py /root/autodl-tmp/models/Llama3-8B-Chinese-Chat --outfile /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v1.gguf --outtype q8_0

相关推荐
游离子丶14 小时前
LLama Factory从入门到放弃
语言模型·游戏程序·llama·yuzu-soft
T0uken1 天前
【LLM】llama.cpp:合并 GGUF 模型分片
语言模型·llama
剑客的茶馆2 天前
GPT,Genini, Claude Llama, DeepSeek,Qwen,Grok,选对LLM大模型真的可以事半功倍!
gpt·llm·llama·选择大模型
try2find2 天前
llama-webui docker实现界面部署
docker·容器·llama
寻丶幽风4 天前
论文阅读笔记——Mixtral of Experts
论文阅读·笔记·语言模型·llama·moe
deephub4 天前
从零开始用Pytorch实现LLaMA 4的混合专家(MoE)模型
人工智能·pytorch·深度学习·大语言模型·llama
仙人掌_lz7 天前
详解如何复现LLaMA 4:从零开始利用Python构建
人工智能·python·ai·llama·智能体·ai agents
AI大模型团团7 天前
从基础概念到前沿应用了解机器学习
人工智能·python·随机森林·机器学习·ai·线性回归·llama
Panesle9 天前
英伟达开源253B语言模型:Llama-3.1-Nemotron-Ultra-253B-v1 模型情况
人工智能·语言模型·llama·nvidia
JovaZou11 天前
n8n 本地部署及实践应用,实现零成本自动化运营 Telegram 频道(保证好使)
运维·人工智能·docker·ai·自然语言处理·自动化·llama