llama.cpp

https://github.com/echonoshy/cgft-llm

cgft-llm/llama-cpp/README.md at master · echonoshy/cgft-llm (github.com)

【大模型量化】- Llama.cpp轻量化模型部署及量化_哔哩哔哩_bilibili

复制代码
Release模式是直接运行,Debug模式是调试模型。

github.com/ggerganov/llama.cpp

复制代码
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit --local-dir /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF
复制代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
复制代码
cmake -B build_cpu
cmake --build build_cpu --config Release

cmake -B build_cuda -DLLAMA_CUDA=ON
cmake --build build_cuda --config Release -j 12

cd ~/code/llama.cpp/build_cuda/bin

./quantize --allow-requantize /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q4_1-v1.gguf Q4_1

python convert-hf-to-gguf.py /root/autodl-tmp/models/Llama3-8B-Chinese-Chat --outfile /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v1.gguf --outtype q8_0

相关推荐
快撑死的鱼17 小时前
Llama-factory 详细学习笔记:第六章:DPO (直接偏好优化) 实战 (难点)
笔记·学习·llama
一见已难忘17 小时前
昇腾加持下的Llama 3.2:开源大模型推理性能1B英文原版与3B中文微调模型实测对比
人工智能·开源·llama·gitcode·昇腾
被制作时长两年半的个人练习生21 小时前
使用rvv优化rms_norm
linux·llama·risc-v
LiYingL3 天前
OctoThinker 通过改进 Llama 来支持强化学习,展示了中间学习的威力
人工智能·学习·llama
范男4 天前
Qwen3-VL + LLama-Factory进行针对Grounding任务LoRA微调
人工智能·深度学习·计算机视觉·transformer·llama
忘记5785 天前
下载llama factory
llama
路边草随风5 天前
llama_index简单使用
人工智能·python·llama
王威振的csdn6 天前
法律大模型微调:基于 LLaMA-Factory 的指令微调方案
llama
JoannaJuanCV6 天前
大模型训练:LLaMA-Factory快速上手
llama
java_logo6 天前
LANGFUSE Docker 容器化部署指南
运维·docker·云原生·容器·eureka·llama