5.llama.cpp编译及使用

llama.cpp的编译及使用

下载源码

安装依赖库

  • cmake 编译:版本稍高一些,我的是3.22

编译

支持cuda

复制代码
cd llama.cpp
mkdir build
cd build
cmake .. -DLLAMA_CUBLAS=ON
make -j8

最后在build/bin目录下生成

下载模型

模型量化

模型量化的python代码在llama.cpp下面找到。在硬件资源有限的情况下才对模型进行量化。

在build/bin找到quantize

在较新版本默认生成的是ggml-model-f16.gguf

  • 模型量化
    quantize the model to 4-bits (using q4_0 method) 进一步对FP16模型进行4-bit量化

    ./quantize ./models/llama-2-7b-hf/ggml-model-f16.bin ./models/llama-2-7b-hf/ggml-model-q4_0.bin q4_0

模型推理

在build/bin找到main

复制代码
./main -ngl 30 -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin --color -f  ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.0

Linly模型

自己动手处理

运行测试

  • 测试用脚本

    #!/bin/bash

    llama 推理

    #./main -ngl 30 -m ./models/7B/ggml-model-alpaca-7b-q4_0.gguf --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.3

    linly 基础模型

    #./main -ngl 30 -m ./models/7B/linly-ggml-model-q4_0.bin --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.0

    linly chatflow模型

    ./main -ngl 30 -m ./models/chatflow_7b/linly-chatflow-7b-q4_0.bin --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.0

    whisper llama

    #./whisper/talk-llama -l zh -mw ./models/ggml-small_q4_0.bin -ml ./models/7B/ggml-model-alpaca-7b-q4_0.gguf -p "lfrobot" -t 8 -c 0 -vth 0.6 -fth 100 -pe

  • 参数说明
    比较重要的参数:

    -ins 启动类ChatGPT的对话交流模式
    -f 指定prompt模板,alpaca模型请加载prompts/alpaca.txt 指令模板
    -c 控制上下文的长度,值越大越能参考更长的对话历史(默认:512)
    -n 控制回复生成的最大长度(默认:128)
    --repeat_penalty 控制生成回复中对重复文本的惩罚力度
    --temp 温度系数,值越低回复的随机性越小,反之越大
    --top_p, top_k 控制解码采样的相关参数
    -b 控制batch size(默认:512)
    -t 控制线程数量(默认:8),可适当增加
    -ngl 使用cuda核心数
    -m 指定模型

相关推荐
德育处主任Pro1 天前
前端玩转大模型,DeepSeek-R1 蒸馏 Llama 模型的 Bedrock 部署
前端·llama
relis2 天前
AVX-512深度实现分析:从原理到LLaMA.cpp的性能优化艺术
性能优化·llama
relis4 天前
llama.cpp RMSNorm CUDA 优化分析报告
算法·llama
云雾J视界4 天前
开源革命下的研发突围:Meta Llama系列模型的知识整合实践与启示
meta·开源·llama·知识管理·知识整合·知识迭代·知识共享
丁学文武5 天前
大模型原理与实践:第三章-预训练语言模型详解_第3部分-Decoder-Only(GPT、LLama、GLM)
人工智能·gpt·语言模型·自然语言处理·大模型·llama·glm
余衫马6 天前
llama.cpp:本地大模型推理的高性能 C++ 框架
c++·人工智能·llm·llama·大模型部署
LETTER•10 天前
Llama 模型架构解析:从 Pre-RMSNorm 到 GQA 的技术演进
深度学习·语言模型·自然语言处理·llama
拓端研究室10 天前
JupyterLab+PyTorch:LoRA+4-bit量化+SFT微调Llama 4医疗推理应用|附代码数据
llama
之歆11 天前
LangGraph构建多智能体
人工智能·python·llama
胡耀超13 天前
开源生态与技术民主化 - 从LLaMA到DeepSeek的开源革命(LLaMA、DeepSeek-V3、Mistral 7B)
人工智能·python·神经网络·开源·大模型·llama·deepseek