【自然语言处理与大模型】使用llama.cpp将HF格式大模型转换为GGUF格式

llama.cpp的主要目标是在本地和云端的各种硬件上以最小的设置和最先进的性能实现LLM推理。是一个专为大型语言模型(LLM)设计的高性能推理框架,完全使用C和C++编写,没有外部依赖,这使得它可以很容易地被移植到不同的操作系统和硬件平台上。简化大型语言模型部署流程。

一、下载llama.cpp

1、访问其GitHub官方仓库:llama.cpp

2、在你的服务器指定路径下克隆仓库

bash 复制代码
git clone https://github.com/ggerganov/llama.cpp.git

3、安装llama.cpp所需环境

bash 复制代码
pip install -r requirements.txt

【注】如果你想使用其他方式安装(比如Docker),可以参考官方仓库的下面这个部分。

二、将大模型从HF格式转换为GGUF格式

1、在llama.cpp项目路径下会有一个convert_hf_to_gguf.py文件

2、执行命令进行格式转换(默认将模型转换为FP16的GGUF)

bash 复制代码
python3 convert_hf_to_gguf.py <你模型所在路径>


3、模型格式转换成功后会提示GGUF格式的模型保存在了哪里

4、除了可以将大模型转换为FP16的量化精度外,还可以做Q8_0量化(等多种)并导出为GGUF格式

bash 复制代码
# 将模型量化为8位(使用Q8_0方法)
python convert_hf_to_gguf.py <你的模型所在路径> --outtype q8_0 --outfile <希望保存的路径>

如果你在转换格式的时候指定了量化参数,那么llama.cpp还会帮你做量化,下面是官方给出的Q4_0量化模型对比:

llama.cpp不光支持4位量化,还支持下面多种量化。表中列出了量化前后模型性能和参数规模的bian

【注】 llama.cpp还提供了更多量化格式转换,说明可见下表:

相关推荐
站大爷IP3 分钟前
那天,我的Python函数死活改不了全局变量
python
右耳朵猫AI4 分钟前
Python周刊2026W22 | Django 6.1 Alpha 1发布、Nuitka 4.1发布、PEP 831终稿、PEP 808已接受
开发语言·python·django
Wonderful U10 分钟前
Python+Django实战|美食菜谱分享与食材采购一体化系统:食谱发布收藏、图文教程、食材商城、购物车、订单管理、美食点评、智能食谱推荐
python·django·美食
秦jh_21 分钟前
【LangChain核心组件】少样本提示(示例选择器)
人工智能·python·langchain
资深流水灯工程师28 分钟前
PyCharm 增强插件完整安装与配置指南(PySide6 开发专用)
ide·python·pycharm
Kobebryant-Manba35 分钟前
学习模型构造
python·深度学习·学习
天天进步201537 分钟前
Python全栈项目--基于Python的数据库管理工具
开发语言·数据库·python
阿提说说38 分钟前
我的 NVIDIA 考试攻略
python·大模型·agent
星贝爱科生物科研小能手38 分钟前
CS-PLGA@褪黑素纳米粒(CS-PLGA@MT NPs)的应用场景有哪些?
人工智能·自然语言处理·机器翻译
羊羊小栈40 分钟前
基于知识图谱(Neo4j)和大语言模型(LLM)的图检索增强(GraphRAG)的数控车床主轴系统故障诊断智能问答系统
人工智能·语言模型·毕业设计·知识图谱·创业创新·neo4j·大作业