微调一个自己的大模型（腾讯云cloud studio + llama factory）

最近就是新项目和老项目一起支撑，老项目的人以为我还在支撑，然后新项目的人以为我不在支撑老项目了。

本来我还乐呵呵的两边一起支撑，后来领导突然问我怎么还在干老项目，让我把老项目的事情交给另一个同事去干。

感觉有点吃力不讨好之后，我直接完全不管老项目了，在我的签名上直接加上了老项目支撑=〉xx同事。

...

新项目这边之前干过一个星期，有点基础，上手也挺快。

这周当了两天测试，当了几天开发，解了一个问题单。

具体的话就是把转测的门槛用例测完了，开发了一个完整的新功能，然后定位了一个并发问题。

工作内容挺饱满，属于是又有输出了hhh

...

本来以为需要一段时间才能微调一个自己的大模型，结果上周下班后，花了几天时间，居然调好了一个

我这边选用的是腾讯云cloud studio + llama factory来调的。

首先我自己没有gpu环境，就只能搞个服务器来弄。恰巧腾讯云可以白嫖GPU服务器，所有就用它了，链接如下：

https://ide.cloud.tencent.com/dashboard/gpu-workspace

这个GPU服务器的内存是1.5G，不算大，但是既然我是白嫖怪，我就只能说腾讯大气

接着我找了个开源的微调框架llama factory，本来准备用ChatGLM的那个微调教程的，但是看了一下，前者好像用的人更多，也更通用，所以就选它了

我这边的话，微调并使用自己的大模型分为3部

微调开源大模型，保存参数
将模型输出成gguf格式保存
使用Ollama部署自己的大模型

第一步的话，因为我的显存只有1.5G，所以我选择微调Qwen2.5-0.5b的大模型，这个模型需要的显存大概估计如下：

参数0.5G、梯度0.5G、优化器0.3G左右，大概1.3G，所以我的服务器可以调起来。

最后调的时候我发现它实际占用只有700M左右，完全足够。

首先要自己整个huggingface的帐号，因为很多开源模型都是在这里下载的。注意，自己要在网站上生成一个token，然后在服务器登陆。

复制代码

pip install --upgrade huggingface_hub
#   Linux
export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli login

然后下载llama factory

复制代码

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

微调大模型: 可以直接在已有的example上修改即可修改一下模型的名字，和自己微调数据集就好。

复制代码

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml
llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml

我这里修改了模型名称为qwen2.5-0.5b, 然后参数类型把bf16改成了false。

在训练好后，模型参数就会保留下来。

接下来第二步就是根据模型参数，输出模型的gguf文件。

复制代码

git clone https://github.com/ggerganov/llama.cpp

cd /root/autodl-tmp/llama.cpp

python convert_hf_to_gguf.py /workspace/LLaMA-Factory-main/models/llama3_lora_sft --outfile /workspace/tmp/qwen2.5-0.5b-sft.gguf --outtype q8_0

最后一步就是运行自己的模型。

在保存下来的模型文件位置新建一个配置文件test.mf

复制代码