【自然语言处理与大模型】使用llama.cpp将HF格式大模型转换为GGUF格式

llama.cpp的主要目标是在本地和云端的各种硬件上以最小的设置和最先进的性能实现LLM推理。是一个专为大型语言模型(LLM)设计的高性能推理框架,完全使用C和C++编写,没有外部依赖,这使得它可以很容易地被移植到不同的操作系统和硬件平台上。简化大型语言模型部署流程。

一、下载llama.cpp

1、访问其GitHub官方仓库:llama.cpp

2、在你的服务器指定路径下克隆仓库

bash 复制代码
git clone https://github.com/ggerganov/llama.cpp.git

3、安装llama.cpp所需环境

bash 复制代码
pip install -r requirements.txt

【注】如果你想使用其他方式安装(比如Docker),可以参考官方仓库的下面这个部分。

二、将大模型从HF格式转换为GGUF格式

1、在llama.cpp项目路径下会有一个convert_hf_to_gguf.py文件

2、执行命令进行格式转换(默认将模型转换为FP16的GGUF)

bash 复制代码
python3 convert_hf_to_gguf.py <你模型所在路径>


3、模型格式转换成功后会提示GGUF格式的模型保存在了哪里

4、除了可以将大模型转换为FP16的量化精度外,还可以做Q8_0量化(等多种)并导出为GGUF格式

bash 复制代码
# 将模型量化为8位(使用Q8_0方法)
python convert_hf_to_gguf.py <你的模型所在路径> --outtype q8_0 --outfile <希望保存的路径>

如果你在转换格式的时候指定了量化参数,那么llama.cpp还会帮你做量化,下面是官方给出的Q4_0量化模型对比:

llama.cpp不光支持4位量化,还支持下面多种量化。表中列出了量化前后模型性能和参数规模的bian

【注】 llama.cpp还提供了更多量化格式转换,说明可见下表:

相关推荐
在钱塘江3 分钟前
LangGraph构建Ai智能体-8-计划和执行架构-更多示例
人工智能·python
独行soc7 分钟前
2025年渗透测试面试题总结-15(题目+回答)
python·科技·docker·容器·面试·eureka
站大爷IP31 分钟前
Python3解释器深度解析与实战教程:从源码到性能优化的全路径探索
python
站大爷IP1 小时前
Go与Python爬虫实战对比:从开发效率到性能瓶颈的深度解析
python
猫头虎1 小时前
如何实现在多跳UDP传输场景,保证单文件和多文件完整传输的成功率?
java·开发语言·网络·python·网络协议·golang·udp
onejason1 小时前
利用 Python 爬虫获取淘宝商品评论实战指南
前端·后端·python
tkdsy0072 小时前
Python调用C/C++函数库的多种方法与实践指南
python·c/c++·pybind11·swig·ctypes·cffi·python/c api
计算机毕设-小月哥2 小时前
【限时分享:Hadoop+Spark+Vue技术栈电信客服数据分析系统完整实现方案
大数据·vue.js·hadoop·python·信息可视化·spark·计算机毕业设计
跟橙姐学代码2 小时前
程序员都爱的小秘密:init.py 到底凭啥这么重要?
前端·python
云天徽上3 小时前
【数据可视化-87】2023-2024年中国各省人口变化深度分析与可视化:Python + pyecharts打造炫酷暗黑主题大屏
开发语言·python·信息可视化·数据可视化·pyecharts