llama-cpp模型轻量化部署与量化

一、定义

  1. 定义
  2. 配置环境
  3. 遇到的问题,交互模式下模型一直输出,不会停止
  4. 模型量化
  5. Qwen1.5-7B 案例demo

二、实现

  1. 定义
    主要应用与cpu 上的部署框架。由c++完成。

  2. 配置环境
    https://github.com/ggerganov/llama.cpp
    https://github.com/echonoshy/cgft-llm/blob/master/llama-cpp/README.md
    安装:

    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp

编译环境

sudo apt update
sudo apt install cmake

cpu:
cmake -B build_cpu
cmake --build build_cpu --config Release

部署:

cd /root/code/llama.cpp/build_cpu/bin/
#交互模式
./llama-cli -m /home/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf \
    -n -1 \
    -t 12 \                    #多线程
    --color \                 #输入有颜色
    -r "User:" \              #-r: 遇到User: 停止,等待输入
    --in-prefix " " \         #输入前缀
    -i \                      #交互模式
    -p \                      #输入prompt
'User: 你好
AI: 你好啊,我是光屿,要聊聊吗?
User: 好啊!
AI: 你想聊聊什么话题呢?
User:'

#接口模式
./llama-server \
    -m /home/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf \
    --host "0.0.0.0" \
    --port 8080 \
    -c 2048 \
    -ngl 128 \            
    --api-key "echo in the moon"


  1. 遇到的问题,交互模式下模型一直输出,不会停止,参数-r 不起作用

原因: 容器内不支持中文,添加上中文输入法,问题解决。

安装语言包
apt update
apt install -y language-pack-zh-hans
设置环境变量
export LANG=zh_CN.UTF-8
启动终端
exec bash
  1. Qwen1.5-7B 案例demo

    1. 将qwen1.5 转为gguf

    python convert-hf-to-gguf.py /home/Qwen1.5_7b --outfile /home/Qwen1.5_7b-GGUF/Qwen1.5_7b_v1.gguf

量化

cd llama.cpp/build_cuda/bin
./llama-quantize --allow-requantize /home/Qwen1.5_7b-GGUF/Qwen1.5_7b_v1.gguf /home/Qwen1.5_7b-GGUF/Qwen1.5_7b-q4_1-v1.gguf Q4_1
  1. 测试

    ./llama-cli -m /home/Qwen1.5_7b-GGUF/Qwen1.5_7b-q4_1-v1.gguf
    -n -1
    -ngl 256
    -t 12
    --color
    -r "user:"
    --in-prefix " "
    -i
    -p
    "user:: 你好
    AI: 你好啊,我是光屿,要聊聊吗?
    user: 好啊!
    AI: 你想聊聊什么话题呢?
    user:"

相关推荐
多吃轻食13 小时前
大模型开发和微调工具Llama-Factory-->量化1(GPTQ 和 AWQ)
人工智能·深度学习·算法·自然语言处理·llama
ATpiu2 天前
mac下安装Ollama + Open WebUI + Llama3.1
gpt·ai·llama
知来者逆3 天前
RiceChem——用于评估大语言模型在教育领域自动长答卷评分 (ALAG) 的数据集
人工智能·语言模型·自然语言处理·chatgpt·llm·大语言模型·llama
SpikeKing4 天前
LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)
llama
Yanbin_Q4 天前
用 llama.cpp 体验 Meta 的 Llama AI 模型
人工智能·llama
沐岩:)4 天前
Llama模型分布式训练(微调)
分布式·llama
三月七(爱看动漫的程序员)6 天前
Prompting LLMs to Solve Complex Tasks: A Review
人工智能·gpt·语言模型·自然语言处理·chatgpt·langchain·llama
Baihai IDP7 天前
从 Llama 1 到 3.1:Llama 模型架构演进详解
人工智能·ai·开源·llm·llama
Guofu_Liao7 天前
大语言模型---Llama不同系列的权重参数文件提取;Llama-7B权重文件提取;Llama-8B权重文件提取;主要代码功能解析
人工智能·语言模型·自然语言处理·chatgpt·aigc·llama·python3.11
凌虚(失业了求个工作)8 天前
Web 端语音对话 AI 示例:使用 Whisper 和 llama.cpp 构建语音聊天机器人
前端·人工智能·python·whisper·llama