理论学习地址:
https://zh.d2l.ai/chapter_linear-networks/index.html
autodl学术加速:
source /etc/network_turbo
conda常见操作:
删除:
conda remove --name myenv --all -y
导出:
conda env export > environment.yml
导入:
conda env create -f environment.yml
修改安装虚拟环境目录和包缓存目录
修改配置:
conda config --add envs_dirs /root/autodl-tmp/conda/envs
conda config --add pkgs_dirs /root/autodl-tmp/conda/pkgs
验证配置是否生效:
conda config --show | grep -A 2 "envs_dirs"
conda config --show | grep -A 2 "pkgs_dirs"
修改.bashrc
root@autodl-container-271149a41f-a69b11b9:~# which conda
/root/miniconda3/bin/conda
vi ~/.bashrc
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/root/miniconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
eval "$__conda_setup"
else
if [ -f "/path/to/conda/etc/profile.d/conda.sh" ]; then
. "/path/to/conda/etc/profile.d/conda.sh"
else
export PATH="/path/to/conda/bin:$PATH"
fi
fi
unset __conda_setup
# <<< conda initialize <<<
conda activate opencompass
source ~/.bashrc
换源:
-i https://pypi.mirrors.ustc.edu.cn/simple/
测试专用代码:
pip install openai
#多轮对话
from openai import OpenAI
#定义多轮对话方法
def run_chat_session():
#初始化客户端
client = OpenAI(base_url="http://localhost:23333/v1/",api_key="suibianxie")
#初始化对话历史
chat_history = []
#启动对话循环
while True:
#获取用户输入
user_input = input("用户:")
if user_input.lower() == "exit":
print("退出对话。")
break
#更新对话历史(添加用户输入)
chat_history.append({"role":"user","content":user_input})
#调用模型回答
try:
chat_complition = client.chat.completions.create(messages=chat_history,model="/root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct")
#获取最新回答
model_response = chat_complition.choices[0]
print("AI:",model_response.message.content)
#更新对话历史(添加AI模型的回复)
chat_history.append({"role":"assistant","content":model_response.message.content})
except Exception as e:
print("发生错误:",e)
break
if __name__ == '__main__':
run_chat_session()
ptorch:
cuda12.4:
ubuntu:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 -i https://pypi.mirrors.ustc.edu.cn/simple/
cudacu121:
win:
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 -f https://mirrors.aliyun.com/pytorch-wheels/cu121
cuda11.8:
win:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118 -i https://pypi.mirrors.ustc.edu.cn/simple/
WSL:
【超详细的WSL教程:Windows上的Linux子系统】 https://www.bilibili.com/video/BV1tW42197za/?share_source=copy_web&vd_source=5260dbbb879acb9193fb2e7261e27631
常见对话生成数据集:
【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)_日常对话得训练数据集-CSDN博客
大模型平台:
huggingface:
官网:
dataset(nlp):
https://huggingface.co/docs/datasets/quickstart#nlp
魔塔:
pip install modelscope
下载模型:
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct
下载单个文件:
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct README.md --local_dir ./dir
sdk下载:
#模型下载
from modelscope import snapshot_download
cache_dir="/root/autodl-tmp/model"
model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct',cache_dir=cache_dir)
langchain:
中文文档:
pipo算力云(API调用)
https://ppinfra.com/invitation
推理部署框架:
ollama
配置环境
下载:
curl -fsSL https://ollama.com/install.sh | sh
启动:
ollama serve
运行:
ollama run ollama run qwen2.5:0.5b
运行自定义gguf:
创建ModelFile:
ModelFile内容如下:
#GGUF文件路径
FROM /root/autodl-tmp/Llama3-8B/LLM-Research/Meta-Llama-3-8B-Instruct-gguf8.gguf
创建自定义模型:
ollama create zyhhsss --file ./ModeFile
运行:
ollama run zyhhsss
删除:
ollama list
ollama rm zyhhsss
安装命令解释:
1. 命令的作用
(a) curl 部分
curl 是一个命令行工具,用于从指定的 URL 下载内容。
参数解释:
-f: 如果请求失败(例如 HTTP 状态码为 404 或 500),则不输出错误信息到终端。
-s: 静默模式,不显示进度条或错误信息。
-S: 在静默模式下,如果发生错误,仍然显示错误信息。
-L: 如果遇到重定向(如 301 或 302),自动跟随新的地址。
组合起来,-fsSL 表示"安静地下载文件,并处理重定向"。
https://ollama.com/install.sh:这是脚本的下载地址。curl 将从这个 URL 下载脚本的内容。
(b) | sh 部分
| 是管道符号,表示将 curl 的输出直接传递给下一个命令。
sh 是一个 Shell 解释器,用于执行从 curl 下载的脚本内容。
整体来说,这条命令的含义是:
使用 curl 从 https://ollama.com/install.sh 下载脚本。
将脚本内容通过管道传递给 sh,实时执行脚本中的命令。
2. 脚本会做什么?
运行此命令后,脚本的内容会直接影响您的系统。通常情况下,这种安装脚本可能会执行以下操作:
检查系统的环境(如操作系统、架构等)。
下载必要的二进制文件或依赖项。
安装软件到特定位置(如 /usr/local/bin 或 /opt)。
创建快捷方式或配置文件。
添加服务或设置环境变量。
具体行为取决于 install.sh 脚本的内容。
3. 风险与注意事项
虽然这种"一键安装"方式非常方便,但也存在一定的风险。以下是一些需要注意的事项:
(a) 脚本来源是否可信
您正在从 https://ollama.com/install.sh 下载脚本并直接执行,这意味着脚本的内容完全决定了它对您的系统的影响。
如果脚本被恶意篡改,可能会导致安全问题(如安装恶意软件、窃取数据等)。
建议:
在运行之前,先检查脚本的内容。例如:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | less
这会将脚本内容输出到终端供您查看。确认无误后再运行。
(b) 是否需要管理员权限
如果脚本需要写入系统目录(如 /usr/local/bin),可能需要使用 sudo 提升权限:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | sudo sh
注意:使用 sudo 运行脚本时要格外小心,因为它会以超级用户权限执行所有命令。
(c) 日志记录
为了便于排查问题,可以将脚本的输出保存到日志文件中:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | sh > install.log 2>&1
这样,所有输出(包括标准输出和错误信息)都会被记录到 install.log 文件中。
4. 替代方法:手动下载并检查脚本
如果您希望更安全地执行此操作,可以采用以下步骤:
(a) 手动下载脚本
使用 curl 或 wget 下载脚本到本地:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh -o install.sh
(b) 检查脚本内容
使用文本编辑器或查看工具检查脚本内容:
bash
浅色版本
less install.sh
(c) 执行脚本
确认脚本无误后,再运行它:
bash
浅色版本
sh install.sh
或者使用 chmod 赋予执行权限后运行:
bash
浅色版本
chmod +x install.sh
./install.sh
5. 总结
curl -fsSL https://ollama.com/install.sh | sh 是一种快速下载并执行脚本的方式。
它的本质是从远程服务器获取脚本内容,并通过 sh 实时执行。
优点:简单快捷。
缺点:存在潜在的安全风险,尤其是当脚本来源不可信时。
建议:在运行之前检查脚本内容,确保其来源可信,并根据需要记录日志以便排查问题。
vllm
对话模板
指定jinja2文件启动:
vllm serve <model> --chat-template ./path-to-chat-template.jinja
lmdeploy
欢迎来到 LMDeploy 的中文教程! --- lmdeploy
安装:
conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
pip install lmdeploy
pip install partial-json-parser
打开cli:
lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct --server-port 23333 --model-name zyhhsss
对话模板
lmdeploy官方标准json
{
"model_name": "your awesome chat template name",
"system": "<|im_start|>system\n",
"meta_instruction": "You are a robot developed by LMDeploy.",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "<|im_start|>assistant\n",
"eoa": "<|im_end|>",
"separator": "\n",
"capability": "chat",
"stop_words": ["<|im_end|>"]
}
json格式:
lmdeploy serve api_server model --chat-template ${JSON_FILE}
并行推理:
推荐使用 Key-Value(KV) Cache 量化
lmdeploy serve api_server internlm/internlm2_5-7b-chat --quant-policy 8
turbomind加速:
启动模型:
lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct --server-port 23333
turbomind加速:
lmdeploy chat modelname
lmdeploy chat turbomind aaa --model-name bbb
模型转换:
lmdeploy convert 模型coinfig中的name huggingface的模型路径
生成的ws在命令执行的位置
environment.yml
env+cuda12.4
Ubuntu:
name: lmdeploy
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- tzdata=2025a=h04d1e81_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- accelerate==1.5.2
- addict==2.4.0
- aiosignal==1.3.2
- airportsdata==20250224
- annotated-types==0.7.0
- anyio==4.9.0
- attrs==25.3.0
- certifi==2025.1.31
- cfgv==3.4.0
- charset-normalizer==3.4.1
- click==8.1.8
- cloudpickle==3.1.1
- diskcache==5.6.3
- distlib==0.3.9
- distro==1.9.0
- einops==0.8.1
- exceptiongroup==1.2.2
- fastapi==0.115.12
- filelock==3.18.0
- fire==0.7.0
- frozenlist==1.5.0
- fsspec==2025.3.0
- genson==1.3.0
- h11==0.14.0
- httpcore==1.0.7
- httpx==0.28.1
- huggingface-hub==0.29.3
- identify==2.6.9
- idna==3.10
- interegular==0.3.3
- iso3166==2.1.1
- jinja2==3.1.6
- jiter==0.9.0
- jsonschema==4.23.0
- jsonschema-specifications==2024.10.1
- lark==1.2.2
- lmdeploy==0.7.2.post1
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- mdurl==0.1.2
- mmengine-lite==0.10.7
- mpmath==1.3.0
- msgpack==1.1.0
- nest-asyncio==1.6.0
- networkx==3.4.2
- nodeenv==1.9.1
- numpy==1.26.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-ml-py==12.570.86
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- openai==1.69.0
- outlines==0.2.1
- outlines-core==0.1.26
- packaging==24.2
- partial-json-parser==0.2.1.1.post5
- peft==0.14.0
- pillow==11.1.0
- platformdirs==4.3.7
- pre-commit==4.2.0
- protobuf==6.30.2
- psutil==7.0.0
- pydantic==2.11.1
- pydantic-core==2.33.0
- pygments==2.19.1
- pynvml==12.0.0
- pyyaml==6.0.2
- ray==2.44.1
- referencing==0.36.2
- regex==2024.11.6
- requests==2.32.3
- rich==13.9.4
- rpds-py==0.24.0
- safetensors==0.5.3
- sentencepiece==0.2.0
- shortuuid==1.0.13
- sniffio==1.3.1
- starlette==0.46.1
- sympy==1.13.1
- termcolor==2.5.0
- tiktoken==0.9.0
- tokenizers==0.21.1
- tomli==2.2.1
- torch==2.5.1
- torchvision==0.20.1
- tqdm==4.67.1
- transformers==4.50.3
- triton==3.1.0
- typing-extensions==4.13.0
- typing-inspection==0.4.0
- urllib3==2.3.0
- uvicorn==0.34.0
- virtualenv==20.29.3
- yapf==0.43.0
prefix: /root/miniconda3/envs/lmdeploy
win11:
微调框架:
Llamafactory:
端口:7860
LLaMA-Factory/README_zh.md at main · hiyouga/LLaMA-Factory
conda:
conda create -n llamafactory python=3.10 -y
conda activate llamafactory
conda remove --name myenv --all
版本冲突:
解决一:
pip install -e .
pip install gradio==5.23.1
pip install bitsandbytes==0.45.3
pip install peft ==0.12.0
DISABLE_VERSION_CHECK=1 llamafactory-cli webui
解决二:
bitsandbytes=0.44.0
accelerate=1.1.1
peft= 0.12.0
transformers=4.49.0
torch=2.5.1
解决三:
docker
解决四:用requirement.txt/environment.yml
git:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
推荐使用:
pip install -e .
bug!!!!
这个包(gradio)解析json有问题:
5.23.1这个版本可以但是原文中里面提示:5.21.0却不行
pip install --force-reinstall gradio==5.21.0
pip install --upgrade gradio
使用flashattn2加速:
pip install bitsandbytes==0.43.3
启动:
(llmdeploy) root@autodl-container-2fb0448cad-36aa5df2:~/autodl-tmp/LLaMA-Factory/LLaMA-Factory# llamafactory-cli
----------------------------------------------------------------------
| Usage: |
| llamafactory-cli api -h: launch an OpenAI-style API server |
| llamafactory-cli chat -h: launch a chat interface in CLI |
| llamafactory-cli eval -h: evaluate models |
| llamafactory-cli export -h: merge LoRA adapters and export model |
| llamafactory-cli train -h: train models |
| llamafactory-cli webchat -h: launch a chat interface in Web UI |
| llamafactory-cli webui: launch LlamaBoard |
| llamafactory-cli version: show version info |
----------------------------------------------------------------------
llamafactory-cli webui
注意:
在 Python 项目中,setup.py 文件通常会包含两个主要部分来定义依赖项:
install_requires:
这是项目运行所必需的基础依赖。
这些依赖项会在你运行 pip install . 或 pip install -e . 时被安装。
extras_require:
这是项目的可选依赖组(如 torch、metrics 等)。
这些依赖项只有在明确指定时才会被安装,例如通过 pip install -e ".[torch,metrics]"。
environment.yml
ubuntu+cuda12.4
name: llamafactory
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- accelerate==1.4.0
- aiofiles==23.2.1
- aiohappyeyeballs==2.6.1
- aiohttp==3.11.14
- aiosignal==1.3.2
- annotated-types==0.7.0
- anyio==4.9.0
- async-timeout==5.0.1
- attrs==25.3.0
- audioread==3.0.1
- av==14.2.0
- bitsandbytes==0.45.3
- certifi==2025.1.31
- cffi==1.17.1
- charset-normalizer==3.4.1
- click==8.1.8
- contourpy==1.3.1
- cycler==0.12.1
- datasets==3.3.2
- decorator==5.2.1
- dill==0.3.8
- docstring-parser==0.16
- einops==0.8.1
- exceptiongroup==1.2.2
- fastapi==0.115.12
- ffmpy==0.5.0
- filelock==3.18.0
- fire==0.7.0
- fonttools==4.56.0
- frozenlist==1.5.0
- fsspec==2024.12.0
- gradio==5.23.1
- gradio-client==1.8.0
- groovy==0.1.2
- h11==0.14.0
- httpcore==1.0.7
- httpx==0.28.1
- huggingface-hub==0.29.3
- idna==3.10
- jinja2==3.1.6
- joblib==1.4.2
- kiwisolver==1.4.8
- lazy-loader==0.4
- librosa==0.11.0
- llamafactory==0.9.3.dev0
- llvmlite==0.44.0
- markdown-it-py==3.0.0
- markupsafe==2.1.5
- matplotlib==3.10.1
- mdurl==0.1.2
- mpmath==1.3.0
- msgpack==1.1.0
- multidict==6.2.0
- multiprocess==0.70.16
- networkx==3.4.2
- numba==0.61.0
- numpy==1.26.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-cusparselt-cu12==0.6.2
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- orjson==3.10.16
- packaging==24.2
- pandas==2.2.3
- peft==0.15.1
- pillow==11.1.0
- platformdirs==4.3.7
- pooch==1.8.2
- propcache==0.3.1
- protobuf==6.30.2
- psutil==7.0.0
- pyarrow==19.0.1
- pycparser==2.22
- pydantic==2.11.1
- pydantic-core==2.33.0
- pydub==0.25.1
- pygments==2.19.1
- pyparsing==3.2.3
- python-dateutil==2.9.0.post0
- python-multipart==0.0.20
- pytz==2025.2
- pyyaml==6.0.2
- regex==2024.11.6
- requests==2.32.3
- rich==13.9.4
- ruff==0.11.2
- safehttpx==0.1.6
- safetensors==0.5.3
- scikit-learn==1.6.1
- scipy==1.15.2
- semantic-version==2.10.0
- sentencepiece==0.2.0
- shellingham==1.5.4
- shtab==1.7.1
- six==1.17.0
- sniffio==1.3.1
- soundfile==0.13.1
- soxr==0.5.0.post1
- sse-starlette==2.2.1
- starlette==0.46.1
- sympy==1.13.1
- termcolor==2.5.0
- threadpoolctl==3.6.0
- tiktoken==0.9.0
- tokenizers==0.21.0
- tomlkit==0.13.2
- torch==2.6.0
- tqdm==4.67.1
- transformers==4.49.0
- triton==3.2.0
- trl==0.9.6
- typer==0.15.2
- typing-extensions==4.13.0
- typing-inspection==0.4.0
- tyro==0.8.14
- tzdata==2025.2
- urllib3==2.3.0
- uvicorn==0.34.0
- websockets==15.0.1
- xxhash==3.5.0
- yarl==1.18.3
prefix: /root/miniconda3/envs/llamafactory
对话模板转jinjia2:
放在src/llamafactory/data目录下
python
import sys
import os
# 将项目根目录添加到 Python 路径
root_dir = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
sys.path.append(root_dir)
from llamafactory.data.template import TEMPLATES
from transformers import AutoTokenizer
# 1. 初始化分词器(任意支持的分词器均可)
tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/llm/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")
# 2. 获取模板对象
template_name = "qwen" # 替换为你需要查看的模板名称
template = TEMPLATES[template_name]
# 3. 修复分词器的 Jinja 模板
template.fix_jinja_template(tokenizer)
# 4. 直接输出模板的 Jinja 格式
print("=" * 40)
print(f"Template [{template_name}] 的 Jinja 格式:")
print("=" * 40)
print(tokenizer.chat_template)
Xtuner:
官网:
欢迎来到 XTuner 的中文文档 --- XTuner 0.2.0rc0 文档
配置环境:
安装环境:
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env
//conda env create -f environment.yml
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[deepspeed]' -i https://pypi.mirrors.ustc.edu.cn/simple/
版本冲突:
runtime.txt中
torch==2.5.1
torchvision==0.20.1
-
验证:
xtuner list-cfg
训练:
仅支持微调configs下的模型
见下方训练脚本
启动微调脚本
xtuner train internlm2_chat_1_8b_qlora_alpaca_e3.py --work-dir
模型转换为huggingface模型:
xtuner convert pth_to_hf ${FINETUNE_CFG} ${PTH_PATH} ${SAVE_PATH}
# 例如:xtuner convert pth_to_hf /root/autodl-tmp/xtuner-main/xtuner-main/jiaoben/qwen1_5_1_8b_chat_qlora_alpaca_e3.py /root/autodl-tmp/xtuner-main/xtuner-main/work_dirs/qwen1_5_1_8b_chat_qlora_alpaca_e3/iter_2500.pth /root/autodl-tmp/xtuner-main/xtu
ner-main/huggingface
lora/qlora进行模型合并:
xtuner convert merge ${基座模型} ${Huggingface模型} ${合并模型路径}
例如:
xtuner convert merge /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct /root/autodl-tmp/xtuner-main/xtuner-main/huggingface /root/autodl-tmp/xtuner-main/xtuner-main/merge
多卡并行:
# 以下命令根据需要任选其一
xtuner train xxx --deepspeed deepspeed_zero1
xtuner train xxx --deepspeed deepspeed_zero2
xtuner train xxx --deepspeed deepspeed_zero2_offload
xtuner train xxx --deepspeed deepspeed_zero3
xtuner train xxx --deepspeed deepspeed_zero3_offload
用下面这个多卡并行
NPROC_PER_NODE=${GPU_NUM} xtuner train ./config.py --deepspeed deepspeed_zero2
python脚本模板:
一共修改14个(最下面有个load权重)
# Copyright (c) OpenMMLab. All rights reserved.
import torch
from datasets import load_dataset
from mmengine.dataset import DefaultSampler
from mmengine.hooks import (
CheckpointHook,
DistSamplerSeedHook,
IterTimerHook,
LoggerHook,
ParamSchedulerHook,
)
from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
from peft import LoraConfig
from torch.optim import AdamW
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from xtuner.dataset import process_hf_dataset
from xtuner.dataset.collate_fns import default_collate_fn
from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory
from xtuner.engine.hooks import (
DatasetInfoHook,
EvaluateChatHook,
VarlenAttnArgsToMessageHubHook,
)
from xtuner.engine.runner import TrainLoop
from xtuner.model import SupervisedFinetune
from xtuner.parallel.sequence import SequenceParallelSampler
from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE
#######################################################################
# PART 1 Settings #
#######################################################################
# Model
# pretrained_model_name_or_path = "Qwen/Qwen1.5-1.8B-Chat"
#基座模型 1
pretrained_model_name_or_path = "/root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct"
use_varlen_attn = False
# Data 2
#
# data_files = [
# '/root/public/data/target_data_1.json',
# '/root/public/data/target_data_2.json',
# '/root/public/data/target_data_3.json'
# ]
data_files = '/root/autodl-tmp/xtuner-main/xtuner-main/data/output.json'#数据集
# 提示词模板 3
prompt_template = PROMPT_TEMPLATE.qwen_chat
# 长度 4
max_length = 512
pack_to_max_length = True
# parallel
sequence_parallel_size = 1
# Scheduler & Optimizer
# 优化器
# 批次 5
batch_size = 10 # per_device
accumulative_counts = 16
accumulative_counts *= sequence_parallel_size
dataloader_num_workers = 0
# 最大轮次 6
max_epochs = 3000
optim_type = AdamW
lr = 2e-4
betas = (0.9, 0.999)
weight_decay = 0
max_norm = 1 # grad clip
warmup_ratio = 0.03
# 多少轮保存 7
save_steps = 500
# 最大保存数量 8
save_total_limit = 2 # Maximum checkpoints to keep (-1 means unlimited)
# Evaluate the generation performance during the training
evaluation_freq = 500
SYSTEM = SYSTEM_TEMPLATE.alpaca
# 主观验证 9
evaluation_inputs = ["这只烤乳猪火出圈啦", "朕决定于今日称帝","珍爱生命,远离死亡"
,"吃书有助于消化知识"]
#######################################################################
# PART 2 Model & Tokenizer #
#######################################################################
tokenizer = dict(
type=AutoTokenizer.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
padding_side="right",
)
model = dict(
type=SupervisedFinetune,
use_varlen_attn=use_varlen_attn,
llm=dict(
type=AutoModelForCausalLM.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
torch_dtype=torch.float16,
# 微调方法 下面是qlora,用lora给注释掉 10
quantization_config=dict(
type=BitsAndBytesConfig,
# 四位
load_in_4bit=False,
# 八位
load_in_8bit=True,
llm_int8_threshold=6.0,
llm_int8_has_fp16_weight=False,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
),
),
# lora配置 11
lora=dict(
type=LoraConfig,
r=64,
lora_alpha=128,
lora_dropout=0.1,
bias="none",
task_type="CAUSAL_LM",
),
)
#######################################################################
# PART 3 Dataset & Dataloader #
#######################################################################
alpaca_en = dict(
type=process_hf_dataset,
# dataset=dict(type=load_dataset, path=alpaca_en_path),
# 加载数据集 12
dataset=dict(type=load_dataset, path="json",data_files=data_files),
tokenizer=tokenizer,
max_length=max_length,
# 加载数据集匹配格式 13
dataset_map_fn=None,
template_map_fn=dict(type=template_map_fn_factory, template=prompt_template),
remove_unused_columns=True,
shuffle_before_pack=True,
pack_to_max_length=pack_to_max_length,
use_varlen_attn=use_varlen_attn,
)
sampler = SequenceParallelSampler if sequence_parallel_size > 1 else DefaultSampler
train_dataloader = dict(
batch_size=batch_size,
num_workers=dataloader_num_workers,
dataset=alpaca_en,
sampler=dict(type=sampler, shuffle=True),
collate_fn=dict(type=default_collate_fn, use_varlen_attn=use_varlen_attn),
)
#######################################################################
# PART 4 Scheduler & Optimizer #
#######################################################################
# optimizer
# 优化器相关 14
optim_wrapper = dict(
type=AmpOptimWrapper,
optimizer=dict(type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
accumulative_counts=accumulative_counts,
loss_scale="dynamic",
dtype="float16",
)
# learning policy
# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md # noqa: E501
param_scheduler = [
dict(
type=LinearLR,
start_factor=1e-5,
by_epoch=True,
begin=0,
end=warmup_ratio * max_epochs,
convert_to_iter_based=True,
),
dict(
type=CosineAnnealingLR,
eta_min=0.0,
by_epoch=True,
begin=warmup_ratio * max_epochs,
end=max_epochs,
convert_to_iter_based=True,
),
]
# train, val, test setting
train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)
#######################################################################
# PART 5 Runtime #
#######################################################################
# Log the dialogue periodically during the training process, optional
custom_hooks = [
dict(type=DatasetInfoHook, tokenizer=tokenizer),
dict(
type=EvaluateChatHook,
tokenizer=tokenizer,
every_n_iters=evaluation_freq,
evaluation_inputs=evaluation_inputs,
system=SYSTEM,
prompt_template=prompt_template,
),
]
if use_varlen_attn:
custom_hooks += [dict(type=VarlenAttnArgsToMessageHubHook)]
# configure default hooks
default_hooks = dict(
# record the time of every iteration.
timer=dict(type=IterTimerHook),
# print log every 10 iterations.
logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
# enable the parameter scheduler.
param_scheduler=dict(type=ParamSchedulerHook),
# save checkpoint per `save_steps`.
checkpoint=dict(
type=CheckpointHook,
by_epoch=False,
interval=save_steps,
max_keep_ckpts=save_total_limit,
),
# set sampler seed in distributed evrionment.
sampler_seed=dict(type=DistSamplerSeedHook),
)
# configure environment
env_cfg = dict(
# whether to enable cudnn benchmark
cudnn_benchmark=False,
# set multi process parameters
mp_cfg=dict(mp_start_method="fork", opencv_num_threads=0),
# set distributed parameters
dist_cfg=dict(backend="nccl"),
)
# set visualizer
visualizer = None
# set log level
log_level = "INFO"
# load from which checkpoint
#15加载权重 load .pth文件夹
#ep:load_from = "path_to_pth"
load_from = None
# whether to resume training from the loaded checkpoint
resume = False
# Defaults to use random seed and disable `deterministic`
randomness = dict(seed=None, deterministic=False)
# set log processor
log_processor = dict(by_epoch=False)
environment.yml
name: xtuner-env
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- accelerate==1.6.0
- addict==2.4.0
- aiohappyeyeballs==2.6.1
- aiohttp==3.11.16
- aiosignal==1.3.2
- annotated-types==0.7.0
- async-timeout==5.0.1
- attrs==25.3.0
- bitsandbytes==0.45.0
- certifi==2025.1.31
- charset-normalizer==3.4.1
- contourpy==1.3.1
- cycler==0.12.1
- datasets==3.5.0
- deepspeed==0.16.2
- dill==0.3.8
- einops==0.8.1
- et-xmlfile==2.0.0
- filelock==3.18.0
- fonttools==4.57.0
- frozenlist==1.5.0
- fsspec==2024.12.0
- hjson==3.1.0
- huggingface-hub==0.30.1
- idna==3.10
- imageio==2.37.0
- jinja2==3.1.6
- kiwisolver==1.4.8
- lazy-loader==0.4
- loguru==0.7.3
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- matplotlib==3.10.1
- mdurl==0.1.2
- mmengine==0.10.6
- modelscope==1.25.0
- mpi4py-mpich==3.1.5
- mpmath==1.3.0
- msgpack==1.1.0
- multidict==6.3.2
- multiprocess==0.70.16
- networkx==3.4.2
- ninja==1.11.1.4
- numpy==2.2.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- opencv-python==4.11.0.86
- openpyxl==3.1.5
- packaging==24.2
- pandas==2.2.3
- peft==0.15.1
- pillow==11.1.0
- platformdirs==4.3.7
- propcache==0.3.1
- psutil==7.0.0
- py-cpuinfo==9.0.0
- pyarrow==19.0.1
- pydantic==2.11.2
- pydantic-core==2.33.1
- pygments==2.19.1
- pyparsing==3.2.3
- python-dateutil==2.9.0.post0
- pytz==2025.2
- pyyaml==6.0.2
- regex==2024.11.6
- requests==2.32.3
- rich==14.0.0
- safetensors==0.5.3
- scikit-image==0.25.2
- scipy==1.15.2
- sentencepiece==0.2.0
- six==1.17.0
- sympy==1.13.1
- termcolor==3.0.1
- tifffile==2025.3.30
- tiktoken==0.9.0
- tokenizers==0.21.1
- tomli==2.2.1
- torch==2.5.1
- torchvision==0.20.1
- tqdm==4.67.1
- transformers==4.48.0
- transformers-stream-generator==0.0.5
- triton==3.1.0
- typing-extensions==4.13.1
- typing-inspection==0.4.0
- tzdata==2025.2
- urllib3==2.3.0
- xxhash==3.5.0
- yapf==0.43.0
- yarl==1.18.3
prefix: /root/miniconda3/envs/xtuner-env
评测模型的工具:
OpenCompass:
官方:https://doc.opencompass.org.cn/get_started/installation.html
中文:https://opencompass.readthedocs.io/zh-cn/latest/get_started/installation.html
评估一个模型一般要评估两个数据集:
一、开源的数据集评估(评估通用能力)
二、自定义数据集评估(评估定制化能力)
配置环境:
本文用的 0.4.2
conda create --name opencompass python=3.10 -y
# conda create --name opencompass_lmdeploy python=3.10 -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
下载数据集:
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
把数据集放在代码的data目录下
(数据解压就是data文件夹)
environment.yml
name: opencompass
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- tzdata=2025a=h04d1e81_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- absl-py==2.2.2
- accelerate==1.6.0
- addict==2.4.0
- aiohappyeyeballs==2.6.1
- aiohttp==3.11.16
- aiosignal==1.3.2
- annotated-types==0.7.0
- anyio==4.9.0
- async-timeout==5.0.1
- attrs==25.3.0
- certifi==2025.1.31
- charset-normalizer==3.4.1
- click==8.1.8
- colorama==0.4.6
- contourpy==1.3.2
- cpm-kernels==1.0.11
- cycler==0.12.1
- datasets==3.5.0
- dill==0.3.8
- distro==1.9.0
- einops==0.8.1
- evaluate==0.4.3
- exceptiongroup==1.2.2
- filelock==3.18.0
- fonttools==4.57.0
- frozenlist==1.6.0
- fsspec==2024.12.0
- func-timeout==4.3.5
- fuzzywuzzy==0.18.0
- gradio-client==1.8.0
- h11==0.14.0
- h5py==3.13.0
- httpcore==1.0.8
- httpx==0.27.2
- huggingface-hub==0.30.2
- idna==3.10
- immutabledict==4.2.1
- importlib-metadata==8.6.1
- jieba==0.42.1
- jinja2==3.1.6
- jiter==0.9.0
- joblib==1.4.2
- json5==0.12.0
- jsonlines==4.0.0
- kiwisolver==1.4.8
- levenshtein==0.27.1
- lxml==5.3.2
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- matplotlib==3.10.1
- mdurl==0.1.2
- mmengine-lite==0.10.7
- mpmath==1.3.0
- multidict==6.4.3
- multiprocess==0.70.16
- networkx==3.4.2
- nltk==3.9.1
- numpy==1.26.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-cusparselt-cu12==0.6.2
- nvidia-ml-py==12.570.86
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- nvitop==1.4.2
- openai==1.75.0
- opencc==1.1.9
- opencv-python-headless==4.11.0.86
- packaging==24.2
- pandas==1.5.3
- pillow==11.2.1
- platformdirs==4.3.7
- portalocker==3.1.1
- prettytable==3.16.0
- propcache==0.3.1
- protobuf==6.30.2
- psutil==7.0.0
- pyarrow==19.0.1
- pydantic==2.11.3
- pydantic-core==2.33.1
- pyext==0.7
- pygments==2.19.1
- pyparsing==3.2.3
- python-dateutil==2.9.0.post0
- python-levenshtein==0.27.1
- pytz==2025.2
- pyyaml==6.0.2
- rank-bm25==0.2.2
- rapidfuzz==3.13.0
- regex==2024.11.6
- requests==2.32.3
- retrying==1.3.4
- rich==14.0.0
- rouge==1.0.1
- rouge-chinese==1.0.3
- rouge-score==0.1.2
- sacrebleu==2.5.1
- safetensors==0.5.3
- scikit-learn==1.5.0
- scipy==1.15.2
- seaborn==0.13.2
- sentence-transformers==4.1.0
- shellingham==1.5.4
- six==1.17.0
- sniffio==1.3.1
- sympy==1.13.1
- tabulate==0.9.0
- termcolor==3.0.1
- threadpoolctl==3.6.0
- tiktoken==0.9.0
- timeout-decorator==0.5.0
- tokenizers==0.21.1
- tomli==2.2.1
- torch==2.6.0
- tqdm==4.67.1
- transformers==4.51.3
- tree-sitter==0.21.3
- tree-sitter-languages==1.10.2
- triton==3.2.0
- typer==0.15.2
- typing-extensions==4.13.2
- typing-inspection==0.4.0
- urllib3==2.4.0
- wcwidth==0.2.13
- websockets==15.0.1
- xxhash==3.5.0
- yapf==0.43.0
- yarl==1.20.0
- zipp==3.21.0
prefix: /root/autodl-tmp/conda/envs/opencompass
数据集评估:
数据集分类
_gen后缀数据集:生成式评估,需后处理提取答案(如ceval_gen)
_ppl后缀数据集:困惑度评估,直接比对选项概率(如ceval_ppl)
C-Eval:侧重中文STEM和社会科学知识,包含1.3万道选择题
LawBench:法律领域专项评估,需额外克隆仓库并配置路径
评估一个模型一般要评估两个数据集:
一、开源的数据集评估(评估通用能力)
二、自定义数据集评估(评估定制化能力)
1. 主流开源数据集
OpenCompass内置超过70个数据集,覆盖五大能力维度:
知识类:C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。
推理类:GSM8K(数学推理)、BBH(复杂推理链)。
语言类:CLUE(中文理解)、AFQMC(语义相似度)。
代码类:HumanEval(代码生成)、MBPP(编程问题)。
多模态类:MMBench(图像理解)、SEED-Bench(多模态问答)
2. 自定义数据集
我们支持 .jsonl 和 .csv 两种格式的数据集。
2.1 选择题 (mcq)
对于选择 (mcq) 类型的数据,默认的字段如下:
question: 表示选择题的题干
A, B, C, ...: 使用单个大写字母表示选项,个数不限定。默认只会从 A 开始,解析连续的字母作为选项。
answer: 表示选择题的正确答案,其值必须是上述所选用的选项之一,如 A, B, C 等。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "165+833+650+615=", "A": "2258", "B": "2263", "C": "2281", "answer": "B"}
{"question": "368+959+918+653+978=", "A": "3876", "B": "3878", "C": "3880", "answer": "A"}
{"question": "776+208+589+882+571+996+515+726=", "A": "5213", "B": "5263", "C": "5383", "answer": "B"}
{"question": "803+862+815+100+409+758+262+169=", "A": "4098", "B": "4128", "C": "4178", "answer": "C"}
.csv 格式样例如下:
question,A,B,C,answer
127+545+588+620+556+199=,2632,2635,2645,B
735+603+102+335+605=,2376,2380,2410,B
506+346+920+451+910+142+659+850=,4766,4774,4784,C
504+811+870+445=,2615,2630,2750,B
2.2问答题 (qa)
对于问答 (qa) 类型的数据,默认的字段如下:
question: 表示问答题的题干
answer: 表示问答题的正确答案。可缺失,表示该数据集无正确答案。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}
.csv 格式样例如下:
question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170
评估命令:
评估本地的hf格式大模型:
参数解释:
--datasets:
评估所用数据集(数据集配置在框架系统中,可以使用
# 列出与llama和mmlu相关的所有配置
python tools/list_configs.py llama mmlu
来查看)
--hf-type:模型属于什么类型 一般模型名字后面由chat就填chat,没有写base或者不传这个参数
--hf-path:模型路径
--debug:捕获异常并提供详细信息
方法一:命令行(只能评估一个模型!!!!!!!!!!!!!!!!!!!!!!)
python run.py \
--datasets demo_gsm8k_chat_gen demo_math_chat_gen \
--hf-type chat \
--hf-path internlm/internlm2-chat-1_8b \
--debug
--work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
方法二:命令行+配置文件(多模型!!!!!!!!!!!!!!!!!!!!!!!)
--models:后面跟的模型名称,对应的配置文件目录在:opencompass/openconpass/configs/models/qwen2.5 去找模型。
模型名称解析:
hf前缀代表是huggingface评估方法
找到你要的py文件:
例如:hf_qwen1_5_0_5b_chat.py,然后修改 path换成绝对路径
run_cfg=dict(num_gpus=1)评估用的哪一块gpu,电脑上只有一块的写成0
from opencompass.models import HuggingFacewithChatTemplate
models = [
dict(
type=HuggingFacewithChatTemplate,
abbr='qwen1.5-0.5b-chat-hf',
path='Qwen/Qwen1.5-0.5B-Chat',
max_out_len=1024,
batch_size=8,
run_cfg=dict(num_gpus=0),
stop_words=['<|im_end|>', '<|im_start|>'],
)
]
注意:可以使用 python tools/list_configs.py hf_qwen 来查看模型名称,即跟在--models后面的参数
python run.py \
--models hf_internlm2_chat_1_8b hf_qwen2_1_5b_instruct \
--datasets demo_gsm8k_chat_gen demo_math_chat_gen \
--debug
--work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
评估加速:
1. pip install lmdeploy
2. 在config/models/下寻找 lmdeploy开头的py文件
2.1 修改path:
2.2 参数解释
engine_config=dict(session_len=16384, max_batch_size=16, tp=1),
tp:产生的结果用对应序号的gpu来评估。
from opencompass.models import TurboMindModelwithChatTemplate
models = [
dict(
type=TurboMindModelwithChatTemplate,
abbr='qwen1.5-1.8b-chat-turbomind',
path='Qwen/Qwen1.5-1.8B-Chat',
engine_config=dict(session_len=16384, max_batch_size=16, tp=1),
gen_config=dict(top_k=1, temperature=1e-6, top_p=0.9, max_new_tokens=4096),
max_seq_len=16384,
max_out_len=4096,
batch_size=16,
run_cfg=dict(num_gpus=1),
stop_words=['<|im_end|>', '<|im_start|>'],
)
]
3. 和上面一样 model填写你修改的配置文件地址
python run.py \
--models lmdeploy_xxxxx \
--datasets demo_gsm8k_chat_gen demo_math_chat_gen \
--debug
--work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
自定义数据及评估:
自定义数据集
我们支持 .jsonl 和 .csv 两种格式的数据集。
2.1 选择题 (mcq)
对于选择 (mcq) 类型的数据,默认的字段如下:
question: 表示选择题的题干
A, B, C, ...: 使用单个大写字母表示选项,个数不限定。默认只会从 A 开始,解析连续的字母作为选项。
answer: 表示选择题的正确答案,其值必须是上述所选用的选项之一,如 A, B, C 等。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "165+833+650+615=", "A": "2258", "B": "2263", "C": "2281", "answer": "B"}
{"question": "368+959+918+653+978=", "A": "3876", "B": "3878", "C": "3880", "answer": "A"}
{"question": "776+208+589+882+571+996+515+726=", "A": "5213", "B": "5263", "C": "5383", "answer": "B"}
{"question": "803+862+815+100+409+758+262+169=", "A": "4098", "B": "4128", "C": "4178", "answer": "C"}
.csv 格式样例如下:
question,A,B,C,answer
127+545+588+620+556+199=,2632,2635,2645,B
735+603+102+335+605=,2376,2380,2410,B
506+346+920+451+910+142+659+850=,4766,4774,4784,C
504+811+870+445=,2615,2630,2750,B
2.2问答题 (qa)
对于问答 (qa) 类型的数据,默认的字段如下:
question: 表示问答题的题干
answer: 表示问答题的正确答案。可缺失,表示该数据集无正确答案。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}
.csv 格式样例如下:
question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170
参数解析:
--custom-dataset-data-type qa 或者mcp
--hf-path:模型绝对路径
方法一(简化):
python run.py \
--hf-path internlm/internlm2-chat-1_8b \
--custom-dataset-path xxx/test_qa.jsonl \
方法二(全一点):
python run.py \
--hf-path internlm/internlm2-chat-1_8b \
--custom-dataset-path xxx/test_qa.jsonl \
--custom-dataset-data-type qa \
--custom-dataset-infer-method gen
前端框架:
openwebui
地址:
https://github.com/open-webui/open-webui
安装:
conda create -n openwebui python=3.11 -y
conda activate openwebui
pip install -U open-webui torch transformers -i https://pypi.mirrors.ustc.edu.cn/simple/
运行:
ubuntu:
conda activate open-webui
export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=True
export OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
open-webui serve --port 8080
windows:(!!!记得写成bat文件)
set HF_ENDPOINT=https://hf-mirror.com
set ENABLE_OLLAMA_API=False
set OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
open-webui serve --port 8080
bat:
@echo off
REM 设置环境变量
set HF_ENDPOINT=https://hf-mirror.com
set ENABLE_OLLAMA_API=False
set OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
REM 激活 Conda 环境
call conda activate open-webui
REM 启动 OpenWebUI 服务
open-webui serve --port 8080
大模型转gguf:
llama.cpp:
下载:
git clone https://github.com/ggerganov/llama.cpp.git
安装依赖:
conda create -n llama_cpp python=3.10 -y
conda activate llama_cpp
pip install -r requirements.txt
运行脚本:
# 如果不量化,保留模型的效果
python convert_hf_to_gguf.py /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss --outtype f16 --verbose --outfile /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss-gguf.gguf
# 如果需要量化(加速并有损效果),直接执行下面脚本就可以
python convert_hf_to_gguf.py /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss --outtype q8_0 --verbose --outfile /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss-gguf_q8_0.gguf
这里--outtype是输出类型,代表含义:
q2_k:特定张量(Tensor)采用较高的精度设置,而其他的则保持基础级别。
q3_k_l、q3_k_m、q3_k_s:这些变体在不同张量上使用不同级别的精度,从而达到性能和效率的平衡。
q4_0:这是最初的量化方案,使用 4 位精度。
q4_1 和 q4_k_m、q4_k_s:这些提供了不同程度的准确性和推理速度,适合需要平衡资源使用的场景。
q5_0、q5_1、q5_k_m、q5_k_s:这些版本在保证更高准确度的同时,会使用更多的资源并且推理速度较
慢。
q6_k 和 q8_0:这些提供了最高的精度,但是因为高资源消耗和慢速度,可能不适合所有用户。
fp16 和 f32: 不量化,保留原始精度。
environment.yml
name: llama_cpp
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- aiohttp==3.9.5
- aiosignal==1.3.2
- annotated-types==0.7.0
- anyio==4.9.0
- async-timeout==4.0.3
- attrs==25.3.0
- certifi==2025.1.31
- charset-normalizer==3.4.1
- click==8.1.8
- contourpy==1.3.1
- cycler==0.12.1
- distro==1.9.0
- exceptiongroup==1.2.2
- filelock==3.18.0
- fonttools==4.56.0
- frozenlist==1.5.0
- fsspec==2025.3.0
- gguf==0.14.0
- h11==0.14.0
- httpcore==1.0.7
- httpx==0.28.1
- huggingface-hub==0.23.5
- idna==3.10
- iniconfig==2.1.0
- jinja2==3.1.6
- jiter==0.9.0
- kiwisolver==1.4.8
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- matplotlib==3.10.1
- mdurl==0.1.2
- mpmath==1.3.0
- multidict==6.2.0
- networkx==3.4.2
- numpy==1.26.4
- openai==1.55.3
- packaging==24.2
- pandas==2.2.3
- pillow==11.1.0
- pluggy==1.5.0
- prometheus-client==0.20.0
- propcache==0.3.1
- protobuf==4.25.6
- pydantic==2.11.1
- pydantic-core==2.33.0
- pygments==2.19.1
- pyparsing==3.2.3
- pytest==8.3.5
- python-dateutil==2.9.0.post0
- pytz==2025.2
- pyyaml==6.0.2
- regex==2024.11.6
- requests==2.32.3
- rich==13.9.4
- safetensors==0.5.3
- seaborn==0.13.2
- sentencepiece==0.2.0
- shellingham==1.5.4
- six==1.17.0
- sniffio==1.3.1
- sympy==1.13.3
- tokenizers==0.20.3
- tomli==2.2.1
- torch==2.2.2+cpu
- tqdm==4.67.1
- transformers==4.46.3
- typer==0.15.2
- typing-extensions==4.13.0
- typing-inspection==0.4.0
- tzdata==2025.2
- urllib3==2.3.0
- wget==3.2
- yarl==1.18.3
prefix: /root/miniconda3/envs/llama_cpp
分布式微调
DeepSpeed:
显存优化器
用时间换空间
支持huggingface pytorch transformers
核心技术:zero,梯度检查点:cpu offloading、混合精度训练 自适应选择最佳通信策略
ZeRO优化器:
阶段划分:
ZeRO-1:优化器状态分片。每张卡上面仍然有完整模型,优化器反向传播的时候只更新一部分参数
ZeRO-2: 梯度(模型反向传播)分片
ZeRO-3:参数(模型正向传播)+梯度+优化器状态
总结:
- zero3显存占用率会下降到1/n n为显卡数量(跟显卡架构有关)
- 支持json配置
- 支持千卡集群训练
用途:训练千亿参数、资源受限、快速实践如微调(一般7b就用)
安装及配置
安装:
pip install deepspeed
配置
llamafactory:
none-1
2 -zero2
3 -zero3
多机多卡、单机多卡:
见llamafactory下的分布式训练
xtuner:
NPROC_PER_NODE=${GPU_NUM} xtuner train ./config.py --deepspeed deepspeed_zero2
评测模型的工具:
OpenCompass:
文本生成模型用的相似度评估
地址:欢迎来到 OpenCompass 中文教程! --- OpenCompass 0.4.1 文档
解压操作:
tar -xvf LLaMaFactory.tar
常见的模型:
生成式模型汇总!一文带你从隐变量模型到 VAE, GAN, Flow 到 Diffusion Model 全懂完()
博客:https://zhuanlan.zhihu.com/p/721196823
RNN:
服务器:
ftp x-shell
传输文件
nohup
后台登陆
nvitop:
使用nvitop来监控 NVIDIA GPU 的使用情况-CSDN博客
大模型理论知识:
transformer:
视频:
博客:
Transformer_transformeryuanlunwen-CSDN博客
模型压缩:
把ai模型之中的参数变少或者变小,最早做边缘部署的。主要想解决模型部署问题,主要可以划分为如下几种方法:
剪枝:
简化模型的结构。
**非结构化剪枝:**层数不变,减少某一层的参数。现在不适用因为大模型结果取决于一些核心的网络参数,结果不可控。 依赖于特定硬件的平台或者算法库
**结构化剪枝:**减少某一些层数,破坏原有结构。精度比较低,不依赖于硬件平台。
局部、全局剪枝:
通常思路:先见0.2重新训练还行,再减0.2继续重新训练
量化:
训练量化,推理量化。原先是32位的现在一般是16位,现在特指8位和4位
训练量化:模型训练时加载模型,分为两部分,一部分参与训练的升到32位。不参预训练的用8位保存。
推理量化:大部分模型参数用8位保存,关键的激活函数用的32位保存
知识蒸馏:
原有一个训练好的大模型作为teacher network,新有一个参数小的模型作为student network。把以前的数据集同时给两个模型, teacher会得出一个接近正确的特征,把student的结果和teacher的结果做一个损失,加上原本的损失。损失权重一开始与teacher差别的权重比较大,自身学习的比较小,之后反过来,由T控制。
deepseek蒸馏的openai
分布式微调:
解决问题:大模型规模爆炸、训练加速。
使用deepspeed进行训练
数据并行:
原理:每个设备导入完整模型,最后汇合。
作用:加速训练,每个设备可以单独去跑。
24g显存 - 7b大模型
16g显存*(2or4) -7b大模型
缺点:通信开销大、显存占用率高(需要存储完整的模型和优化器)
模型并行:
通常需要同型号!!!
原理:将模型拆分到不同设备(一般是按层或张量拆分):
作用:节约算力
横向拆分:按照层
竖向切分:按照张量。例如:Megation-LM将矩阵乘法分片
缺点:设备之间通信频繁,需要精细的负载均衡设计
流水线并行(Pipline Parallelism):
原理:将模型按照层拆分成多个阶段,数据分块之后按照流水线执行。(简单来说模型和数据都拆分了)
优化:微批次减少流水线气泡。显存节约更好。
挑战:需平衡阶段划分,避免资源闲置。
混合并行(3D并行):
把上面三个组合起来,训练千亿级规模的大模型。如:meta的llama-2
混合精度训练:
参预训练的32位,不参加的16位
学习问题汇总:
1 special------token原理
bert中的special token到底是怎么发挥作用的(1) - 知乎\](https://zhuanlan.zhihu.com/p/361169990#:\~:text=bert中的special token有 \[cls\],\[sep\],\[unk\],\[pad\],\[mask\];) 2 前几节课处理文本 3 数据的token化参数含义,embedding,transformer,rnn那些 4 bert sft这些,llamafactory上的微调方法 **5 nvitop上的指标看看(完成)见服务器下的nvitop** **6 常见的文本生成模型:llama qwen glm(谷歌)chatglm(质谱轻言)gemma(完成)** 7 混和精度训练 8 知识蒸馏 9 为什么模型后面加个/v1 10 curl用法 11 bf16 bf32 所谓单精度、双精度干嘛的 12 模型指标参数的含义:bleu-4、ROUGE-4、 13 量化 14 前半小时+21.45-结尾 15 截断长度的计算 16 sm80算力 17 openwebui **18 gguf转化(完成)见llama.cpp** **19 qlora(完成)见下面** 20 lora 21 xtuner实现单机多卡微调,实现训练对话模板转换与部署、导出上面所有框架的包 22 lmdeploy的推理引擎turbomind **21 对话模板(完成):** 三套:微调、模型推理、前端界面。三套提示词模板 模型部署的时候可以使用微调框架使用的对话模板。 openwebui每次加载的时候会覆盖提示词模板 流程:llmfactory运行脚本转换成jinjia-\>模型推理平台启动-\>使用代码测试 注:openwebui暂不支持修改对话模板,以后用别的前端框架 22 Vllm的pageAttentation和张量并行技术 23 kv cache 分布式推理原理 24 看一下为什么相似度和例子差不多就行 25 什么叫数据同态同分布 ## 微调注意事项记录: ### 1.使用flashatten2算力需要在sm80之上 ### 2.qlora流程: #### 超参: \*\*gpu:\*\*4090d -24g显存 \*\*模型:\*\*Qwen/Qwen2.5-1.5B-Instruct \*\*qlora量化等级:\*\*8b \*\*lora秩:\*\*选择和模型、量化等级有关这里给的:64 **一般在32-128之间** \*\*lora缩放系数:\*\*直接秩\*2 这里128 \*\*计算类型:\*\*混合加速训练,用来加速模型训练 bf16新的显卡架构支持、fp16老的支持 \*\*batch:\*\*10 #### **合并:** **检查点路径:**(100、200等绝对路径) /root/autodl-tmp/LLaMA-Factory/LLaMA-Factory/saves/Qwen2.5-1.5B-Instruct/lora/train_2025-03-30-16-36-58/checkpoint-100 **导出路径:** /root/autodl-tmp/LLaMA-Factory/LLaMA-Factory/saves/Qwen2.5-1.5B-Instruct/lora/train_2025-03-30-16-36-58/checkpoint-100/Qwen2.5-1.5B-zyhhsss ### 3.lora流程: ### 4.情绪对话模型实现流程(微调项目通用实现流程) **本项目4090 跑了两小时 2500步(2510/204000) batch给的15 训练数据 2000** 24g训练可以,lmdeploy部署oom使用k v cache并行部署也不行。 **硬件选择:** 训练:RTX3090 24G 部署:vGPU-32GB 显存占用30.2G **最终结果网盘地址:** 大致分成四个步骤 1 数据 2 模型 3 训练、测评 4、部署 #### **4.1 数据来源** * 甲方提供 * 自己收集 * 指定数据集标准 * 数据集获取方式:手动采集、爬虫、数据接口、ai生成 * 数据清洗标注 * 人工处理、ai标注 * 指定数据集格式 **本项目数据来源:** * 准备一些现有数据集 * 基于原有开源数据,让AI实现数据情绪制作 **注意:如果使用AI来处理数据,尽量使用服务器提供的接口** ##### 常见大模型参数说明 1. **Temperature(温度)** * **作用**:控制生成文本的随机性和创造性。 * **取值范围**:通常在 \[0, ∞) 之间,但常见范围是 \[0, 2\]。 * **具体效果** : * **低值(接近 0)**:模型更倾向于选择概率最高的词,生成结果更加确定性、保守、稳定,适合需要精确回答的任务。 * **高值(接近 1 或更高)**:增加随机性,模型会更多地考虑低概率的词,生成结果更加多样化、创造性和不可预测。 2. **Top-k Sampling(Top-k 采样)** * **作用**:限制每次生成时只从概率最高的前 k 个词中进行选择。 * **取值范围**:k 是一个正整数,比如 10、50、100 等。 * **具体效果** : * 如果 `k=1`,模型每次都只选择概率最高的那个词,生成结果非常确定。 * 如果 `k=50`,模型会从概率最高的 50 个词中随机选择一个,生成结果会有一定多样性。 * 较大的 k 值会让生成结果更加多样,但也可能导致语义不连贯。 3. **Top-p Sampling(Nucleus Sampling,核采样)** * **作用**:动态地选取累积概率达到某个阈值 p 的最小词集进行采样。 * **取值范围**:p 在 (0, 1\] 之间,比如 0.9、0.7 等。 * **具体效果** : * 如果 `p=0.9`,模型会选择累积概率达到 90% 的最小词集进行采样。 * 如果词汇分布很集中,可能只选几个词;如果分布很分散,可能会选很多词。 * 相比 `top_k`,`top_p` 更灵活,因为它根据实际的概率分布动态调整候选词集。 4. **Seed(随机种子)** * **作用**:控制生成过程中的随机性,确保结果可复现。 * **取值范围**:通常是一个整数。 * **具体效果** : * 如果设置固定的 `seed`,多次运行模型会得到相同的结果。 * 如果不设置或每次使用不同的 `seed`,生成结果会不同。 **总结对比** | 参数 | 控制维度 | 调节方式 | 影响结果 | |-------------|--------|------------------|------------------| | Temperature | 创造力 | 数值高低影响随机性 | 高温=多样,低温=稳定 | | Top-k | 候选词数量 | 固定选择前 k 个词 | 小 k=保守,大 k=多样 | | Top-p | 累积概率阈值 | 动态选择累积概率达到 p 的词集 | 小 p=保守,大 p=多样 | | Seed | 随机性一致性 | 固定随机种子 | 固定 seed=可复现,否则随机 | ##### 4.1.1 制作AI生成数据脚本 **核心思路:** 1. 加载模型、加载embedding 2. 配置风格模板(作用是规定生成消息回复的消息格式与风格) * 限定不同的风格 * 每种风格可以设定不同的system定位(openai中的"role": "system", "content":),并且加入一些风格生成的约束 * 设定各种风格的没模型参数,temperature 3. 写消息生成函数 * 规定用户输入list * 按照风格和提问生成message,调用模型 * 对结果进行筛选,风格、长度、相似度 4. 去重核心思路 * 先对文本进行编码(embedding) * 求相似度(余弦,欧式) * 设定阈值 ```python import json import time import random from openai import OpenAI from sentence_transformers import SentenceTransformer import numpy as np from tqdm import tqdm import os base_url = "https://api.ppinfra.com/v3/openai" api_key = "sk_FbKBQLJG_sfPuaD2kf_ehCeNiRVAI6j5nmBWw1d37TQ" model = "qwen/qwen2.5-vl-72b-instruct" client = OpenAI( base_url=base_url, api_key=api_key, ) # 加载Embedding模型 style_model = SentenceTransformer(r"G:\python_ws_g\code\LLMlearn\embedding_model\thomas\text2vec-base-chinese") # 风格模板配置 style_config = { "温柔": { "system_prompt": "你是一个温柔体贴的聊天助手,说话时总是充满关怀,使用以下特征:\n1. 包含'呢、呀、啦'等语气词\n2. 使用🌸💖😊等温暖表情\n3. 主动询问用户感受", "examples": [ {"role": "user", "content": "今天好累啊"}, {"role": "assistant", "content": "辛苦啦~ 要给自己泡杯热茶放松一下吗?🌸"}, {"role": "user", "content": "考试没考好..."}, {"role": "assistant", "content": "没关系的呀~ 下次一定会更好!需要我陪你聊聊吗?😊"} ], "temperature": 0.7 }, "毒舌": { "system_prompt": "你是一个喜欢用犀利吐槽表达关心的朋友,需满足:\n1. 使用网络流行语(如'栓Q''退退退')\n2. 包含夸张比喻('你这速度堪比树懒')\n3. 结尾隐藏关心", "examples": [ {"role": "user", "content": "又胖了5斤!"}, {"role": "assistant", "content": "好家伙!你这是要把体重秤压成分子料理?🏋️"}, {"role": "user", "content": "游戏又输了"}, {"role": "assistant", "content": "菜就多练练!需要给你推荐《从零开始的电竞之路》吗?🎮"} ], "temperature": 0.7 }, } # 单条数据写入文件 def append_single_to_json(file_path, new_entry): """将单条数据追加到 JSON 文件""" # 如果文件不存在,创建一个空的 JSON 文件 if not os.path.exists(file_path): with open(file_path, "w", encoding="utf-8") as f: json.dump([], f, ensure_ascii=False, indent=2) # 以追加模式打开文件 with open(file_path, "r+", encoding="utf-8") as f: try: # 尝试读取现有数据 f.seek(0) existing_data = json.load(f) except json.JSONDecodeError: existing_data = [] # 添加新数据 existing_data.append(new_entry) # 写回文件 f.seek(0) f.truncate() # 清空文件内容 json.dump(existing_data, f, ensure_ascii=False, indent=2) # 质量过滤规则 def is_valid_reply(style, user_msg, reply): """质量过滤规则(添加空值检查)""" # 基础检查 if not reply or len(reply.strip()) == 0: return False # 规则1:回复长度检查 if len(reply) < 5 or len(reply) > 150: return False print(reply) # # 规则2:风格关键词检查 # style_keywords = { # "温柔": ["呢", "呀", "😊", "🌸"], # "毒舌": ["好家伙", "栓Q", "!", "🏋️"] # } # if not any(kw in reply for kw in style_keywords.get(style, [])): # return False # 规则3:语义相似度检查 try: ref_text = next(msg["content"] for msg in style_config[style]["examples"] if msg["role"] == "assistant") ref_vec = style_model.encode(ref_text) reply_vec = style_model.encode(reply) # 计算余弦相似度 cosine_similarity = np.dot(ref_vec, reply_vec) / (np.linalg.norm(ref_vec) * np.linalg.norm(reply_vec)) print(cosine_similarity) return cosine_similarity < 0.8 # 阈值可以根据需求调整 except: return False def load_user_inputs_from_json(file_path): """ 从 JSON 文件中加载用户输入数据。 """ if not os.path.exists(file_path): raise FileNotFoundError(f"文件 {file_path} 不存在!") with open(file_path, "r", encoding="utf-8") as f: user_inputs = json.load(f) return user_inputs # 生成函数 def generate_style_data(style_name, num_samples=50): config = style_config[style_name] data_count = 0 # 构建消息上下文(包含系统提示和示例对话) messages = [ {"role": "system", "content": config["system_prompt"]}, *config["examples"] # 直接展开示例对话 ] # 从 JSON 文件中加载用户输入 try: user_inputs = load_user_inputs_from_json(r"G:\python_ws_g\code\LLMlearn\project\dataset\LCCC\user_inputs.json") except Exception as e: print(f"加载用户输入失败:{str(e)}") return with tqdm(total=num_samples) as pbar: # 初始化进度条 while data_count < num_samples: # 确保生成指定数量的有效数据 try: # 随机选择用户输入 user_msg = random.choice(user_inputs) # 添加当前用户消息 current_messages = messages + [ {"role": "user", "content": user_msg} ] # 调用API response = client.chat.completions.create( model=model, messages=current_messages, temperature=config["temperature"], max_tokens=100 ) # 获取回复内容 reply = response.choices[0].message.content # 质量过滤(数据审核) if is_valid_reply(style_name, user_msg, reply): data_entry = { "user": user_msg, "assistant": reply, "style": style_name } append_single_to_json("style_chat_data.json", data_entry) # 立即写入文件 data_count += 1 pbar.update(1) # 更新进度条 time.sleep(1.0) # 频率限制保护 except Exception as e: print(f"生成失败:{str(e)}") # 执行生成 if __name__ == '__main__': try: print("开始生成温柔风格数据...") generate_style_data("温柔", 5000) print("开始生成毒舌风格数据...") generate_style_data("毒舌", 4750) except KeyboardInterrupt: print("\n用户中断,已保存部分数据...") finally: print("数据生成完成!") ``` ##### 4.1.2 确定原始数据 用户给的输入(input),一般来讲甲方有原始数据。本项目选择日常交流话术(开源数据集)。 LCCC: [LCCC · 数据集](https://modelscope.cn/datasets/OmniData/LCCC/files) CDial-GPT:**[CDial-GPT](https://github.com/thu-coai/CDial-GPT)** ###### LCCC转换脚本: import json import os user_inputs = [ # 日常生活相关 "今天心情不太好", "推荐个电影吧", "怎么才能早睡早起", "养猫好还是养狗好", "工作压力好大", "最近总是失眠", "今天脚有点肿了", "天气太冷了怎么办", "周末有什么好玩的活动吗", "如何摆脱拖延症", "吃饭的时候总觉得无聊,怎么办", "有没有什么适合在家做的运动", "最近总觉得很累,是不是亚健康了", # 情感与人际关系 "朋友之间闹矛盾了,该怎么办", "喜欢一个人但不敢表白,怎么办", "家人不理解我,感觉很孤独", "如何更好地表达自己的情绪", "觉得身边的人都比我优秀,好焦虑", "分手后怎么调整心态", "怎样交到更多的朋友", "和同事相处总是很尴尬,怎么办", # 学习与工作 "考试复习效率太低了,有什么建议", "工作中遇到瓶颈,怎么突破", "想学一门新技能,但不知道从哪开始", "如何提高专注力", "面试前特别紧张,有什么方法缓解", "觉得自己能力不足,害怕被裁员", "论文写不下去了,怎么办", "团队合作中遇到问题,该怎么解决", # 健康与饮食 "最近胖了好多,怎么减肥比较好", "晚上总是睡不着,有什么助眠的方法", "吃什么对皮肤好", "健身计划总是坚持不下来,怎么办", "感冒了,吃什么药比较好", "如何保持身体健康", "每天喝水不够,有什么提醒方法", "如何改善久坐导致的腰酸背痛", # 兴趣爱好与娱乐 "最近有什么好看的电视剧推荐", "喜欢画画,但总是画不好,怎么办", "想学吉他,但没时间练习", "如何选择适合自己的书", "旅行时有哪些注意事项", "如何拍出好看的照片", "最近迷上了咖啡,有什么推荐的豆子吗", "喜欢玩游戏,但怕影响学习,怎么平衡", # 社会议题与热点 "最近的新闻热点怎么看", "人工智能会不会取代人类的工作", "环保问题越来越严重,我们能做些什么", "如何看待年轻人躺平的现象", "未来的科技会发展成什么样", "社会上的不公平现象让人很沮丧,怎么办", # 随机吐槽与搞笑 "又胖了5斤!", "游戏又输了,好气啊", "老板今天又骂人了,真是无语", "外卖等了一个小时还没到,简直崩溃", "手机摔地上了,屏幕裂了,心也碎了", "今天的地铁太挤了,感觉自己快被压扁了", "为什么每次洗完头都会下雨", "为什么我的猫总是踩我键盘", ] def extract_first_statements(data): """ 从对话数据集中提取每段对话的第一句话。 """ # 遍历每段对话 for conversation in data: if conversation: # 确保对话不为空 first_statement = conversation[0].replace(" ", "") # 提取第一句并移除空格 user_inputs.append(first_statement) return user_inputs def load_json(file_path): """ 加载 JSON 文件中的数据。 """ with open(file_path, "r", encoding="utf-8") as f: data = json.load(f) return data def save_to_json(file_path, data): """ 将数据保存到 JSON 文件中。 """ with open(file_path, "w", encoding="utf-8") as f: json.dump(data, f, ensure_ascii=False, indent=4) # 主程序 if __name__ == "__main__": # 输入文件路径 input_file = r"G:\python_ws_g\code\LLMlearn\project\dataset\LCCC\LCCC-base-split\LCCC-base_test.json" # 检查输入文件是否存在 if not os.path.exists(input_file): print(f"错误:文件 {input_file} 不存在!") exit(1) # 加载原始数据集 print("正在加载数据...") data_set = load_json(input_file) # 提取每段对话的第一句 print("正在提取第一句话...") user_inputs = extract_first_statements(data_set) # 输出文件路径 output_file = "user_inputs.json" # 保存到 JSON 文件 print("正在保存结果...") save_to_json(output_file, user_inputs) print(f"数据已成功保存到 {output_file}") ###### **使用数据2000条:** 通过网盘分享的文件:wenrou.json 链接: https://pan.baidu.com/s/1hMuLt79YaAZZk79sKYX9zQ?pwd=mb4c 提取码: mb4c --来自百度网盘超级会员v6的分享 Xtuner需要的数据集格式: [ { "conversation": [ { "input": "闺蜜把我秘密当谈资,该不该撕破脸?", "output": "哎呀,这种事情确实很难处理呢。你觉得她的行为伤害到了你吗?💖我们可以一起想想解决的办法。" } ] }, { "conversation": [ { "input": "老妈非让我嫁给她同事儿子,怎么逃啊!", "output": "哎呀,这种事情确实挺棘手的。💖 你心里是怎么想的呢?是不是感到有些压力?我们可以一起想想解决的办法。🌸" } ] }] #### **4.2 模型** ##### 4.2.1 模型选型: \*\*通用流程:模型官网看参数、选后缀 看自己能用的大小 客观评估(当前聊天对话模型核心是:中文理解能力。用CLUE适合一点) \*\* ###### **模型大小判断:** 1.服务器配置。 qwen-2.5-7b下载用的: bf16。 用qlora微调到8位。 | 项目 | 占用(估算) | |------------------------------|------------| | 模型参数(8-bit) | 约 7 GB | | LoRA 参数 | \< 100 MB | | 激活值(中等batch) | 5-8 GB(可调) | | 其他缓存(attention kv、optimizer) | 5-8 GB | 20GB - 左右 **🛠 推荐配置** * **最小可用显卡**:RTX 3090(24GB)或 RTX 4090(24GB) * **推荐配置**:2×3090 / 1×A6000 / 1×A100(40GB 以上更舒服) * **最优方案**:多卡 A100,配合 deepspeed/fsdp 微调更大 batch 2.任务复杂度(人类对话任务3b以内的就行,像数学推理,编程需要更高,得落地尝试)。类似销售机器人:情绪对话+10086客服机器人就可以。 中文模型:qwen、chatglm(智谱)、interlm(书生浦语) llama训练数据90%以上是英文文本 ###### 常见后缀: **chat、instruct:模型输出有限制,经过人工对齐安全一点** instruct: chat:做聊天对话模型 无后缀:base模型无人工审查 ##### 4.2.2 模型客观评价: ###### CLUE数据集: 分为CLUE、FewCLUE前缀的。clue中长文,fewclue短文。 gen后缀文本生成、PPL困惑度:PPL 越低:模型对语言的拟合越好,预测越准确;PPL 越高:说明模型更"困惑",也就是说它对句子的预测不确定性更大。 | 数据集名称 | 所属前缀 | 文本长度 | 任务类型 | 用途说明 | PPL作用说明 | |-----------------|-------------|------|--------|-----------------------------|------------------------| | **AFQMC** | CLUE | 中等 | 语义相似性 | 判断两个句子是否表达相同含义(如问句对齐、改写识别) | 模型PPL越低表示更能准确判断句子语义相似性 | | **CMNLI** | CLUE | 中长 | 自然语言推理 | 判断句子对之间的逻辑关系(蕴含、中立、矛盾) | 反映模型理解句间逻辑关系的能力 | | **CSL** | CLUE | 长文 | 关键词预测 | 利用给定关键词判断摘要与关键词的匹配关系(多标签分类) | PPL低说明模型能更好生成或匹配关键词 | | **TNEWS** | CLUE | 短文 | 文本分类 | 新闻标题分类(15个类别,如科技、财经、体育等) | PPL评估模型对新闻标题语义分布的拟合效果 | | **IFLYTEK** | CLUE | 短文 | 文本分类 | App应用描述的自动分类(119类,任务更细粒度) | PPL越低表示模型能准确建模多类别语义特征 | | **WSC** | CLUE | 中等 | 语言理解 | 推理代词指代的实体(例如"他"指的是谁) | 测试模型对常识推理和上下文理解的能力 | | **CLUEgen** | CLUE-gen | 长文 | 文本生成 | 给定一段内容生成文章或续写文本 | PPL用于评估生成文本的流畅度与合理性 | | **FewCLUE** | FewCLUE | 短文 | 小样本任务 | 包括文本分类、匹配、推理等任务,使用极少样本进行训练 | PPL用于评估模型在低资源下的语言拟合能力 | | **CSKG** | FewCLUE | 短文 | 知识问答 | 基于知识图谱的问答推理任务 | 衡量模型理解实体关系与事实知识的能力 | | **CHIP-STS** | FewCLUE | 中短 | 医疗语义匹配 | 医疗问句之间的语义相似性任务(面向中文医疗文本) | 用于医疗场景下语义建模,PPL越低越准确 | | **FewCLUE-gen** | FewCLUE-gen | 短文 | 文本生成 | 小样本条件下的文本生成任务(如评论生成、摘要生成等) | 小样本下生成任务的文本质量与自然性评估 | ##### 4.2.3 原模型、数据集选择: 数据集选择 FewCLUE_bustm_gen(短文本分类)、FewCLUE_ocnli_fc_gen(自然语言推理) 模型qwen_1.5_0.5b_chat、qwen_1.5_1.8b_chat ###### 使用opencompass: 注意!!!!直接在/root/autodl-tmp/opencompass-main/opencompass-main/opencompass/configs/models下面修改文件,命令并不能指定绝对路径 connfig文件: from opencompass.models import HuggingFacewithChatTemplate models = [ dict( type=HuggingFacewithChatTemplate, abbr='qwen2.5-0.5b-instruct-hf', path='/root/autodl-tmp/model/qwen-2.5-0.5b-instruct', max_out_len=1024, batch_size=8, run_cfg=dict(num_gpus=0), ) ] 在/root/autodl-tmp/opencompass-main/opencompass-main下执行。 注意为了好看分行,命令执行的时候删掉换行符!!!!! python run.py --models hf_qwen2_5_0_5b_instruct.py --datasets FewCLUE_bustm_gen FewCLUE_ocnli_fc_gen --debug --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model python run.py --models hf_qwen2_5_1_5b_instruct.py hf_qwen2_5_7b_instruct.py --datasets FewCLUE_bustm_gen FewCLUE_ocnli_fc_gen --debug --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model ###### 评估结果: gen生成越高越好,ppl越低越好(客服对话中想让模型回答对应题目的问题) | dataset | version | metric | mode | qwen2.5-7b-instruct-hf | |---------------|---------|----------|------|------------------------| | bustm-dev | 5cc669 | accuracy | gen | 83.12 | | bustm-test | 5cc669 | accuracy | gen | 78.44 | | ocnli_fc-dev | 51e956 | accuracy | gen | 70.62 | | ocnli_fc-test | 51e956 | accuracy | gen | 66.71 | | dataset | version | metric | mode | qwen2.5-0.5b-instruct-hf | |---------------|---------|----------|------|--------------------------| | bustm-dev | 5cc669 | accuracy | gen | 52.50 | | bustm-test | 5cc669 | accuracy | gen | 50.11 | | ocnli_fc-dev | 51e956 | accuracy | gen | 38.75 | | ocnli_fc-test | 51e956 | accuracy | gen | 40.87 | | dataset | version | metric | mode | qwen2.5-1.5b-instruct-hf | |---------------|---------|----------|------|--------------------------| | bustm-dev | 5cc669 | accuracy | gen | 70.00 | | bustm-test | 5cc669 | accuracy | gen | 69.81 | | ocnli_fc-dev | 51e956 | accuracy | gen | 63.12 | | ocnli_fc-test | 51e956 | accuracy | gen | 60.60 | #### 4.3 微调框架 Xtuner :主观评价的结果 LLamaFactory:客观loss指标 本文做情感对话模型,倾向看主观评价所以选xtuner。 ##### \*\*注意!!!\*\*使用的数据要单轮还是多轮 一般做对话模型:数据分为单轮和多轮 本文希望做一个类似:小智智能聊天机器人。问一句答一句,没有前后的逻辑推理。 这里使用单轮数据集。 **单轮和多轮区别主要是上下文逻辑** ##### 4.3.1 Xtuner对话模板!!! ###### Xtuner对话模板位置 /root/autodl-tmp/xtuner-main/xtuner/utils/templates.py ###### **流程:** 1. **训练脚本中找prompt_template对应的对话模板** prompt_template = PROMPT_TEMPLATE.qwen_chat 2. **去模板中找qwen_chat** qwen_chat=dict( SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"), INSTRUCTION=("<|im_start|>user\n{input}<|im_end|>\n" "<|im_start|>assistant\n"), SUFFIX="<|im_end|>", SUFFIX_AS_EOS=True, SEP="\n", STOP_WORDS=["<|im_end|>", "<|endoftext|>"], ) ##### 4.3.2 Xtuner训练流程 ###### 4.3.2.1 qlora微调 ###### 4.3.2.2 模型转换 模型训练后会自动保存成 PTH 模型(例如 iter_2000.pth ,如果使用了 DeepSpeed,则将会是一个 文件夹),我们需要利用 xtuner convert pth_to_hf 将其转换为 HuggingFace 模型,以便于后续使 用。具体命令为: xtuner convert pth_to_hf ${FINETUNE_CFG} ${PTH_PATH} ${SAVE_PATH} # 例如:xtuner convert pth_to_hf /root/autodl-tmp/xtuner-main/jiaoben/qwen1_5_7b_chat_qlora_alpaca_e3.py /root/work_dirs/qwen1_5_7b_chat_qlora_alpaca_e3/iter_2500.pth /root/autodl-tmp/muhf ###### 4.3.2.3 模型合并 如果使用了 LoRA / QLoRA 微调,则模型转换后将得到 adapter 参数,而并不包含原 LLM 参数。如果您 期望获得合并后的模型权重(例如用于后续评测),那么可以利用 xtuner convert merge : xtuner convert merge ${基座模型} ${Huggingface模型} ${合并模型路径} 例如: xtuner convert merge /root/autodl-tmp/model/Qwen2.5-7B-Instruct /root/autodl-tmp/muhf /root/autodl-tmp/mymodel ###### 4.3.2.4 部署 #### 4.4 部署框架 vllm或者lmdeploy,lmdeploy推理效率好一点。本文选的lmdeploy。 ##### 4.4.1 Xtuner和Lmdeploy 对话模板对齐!!! **方法一:利用现有对话模板,直接配置一个如下的 json 文件使用** Lmdeploy对话模板标准格式: { "model_name": "your awesome chat template name", "system": "<|im_start|>system\n", "meta_instruction": "You are a robot developed by LMDeploy.", "eosys": "<|im_end|>\n", "user": "<|im_start|>user\n", "eoh": "<|im_end|>\n", "assistant": "<|im_start|>assistant\n", "eoa": "<|im_end|>", "separator": "\n", "capability": "chat", "stop_words": ["<|im_end|>"] } model_name 为必填项,可以是 LMDeploy 内置对话模板名(通过 lmdeploy list 可查阅), 也可以是新名字。其他字段可选填。 当 model_name 是内置对话模板名时,json文件中各非 null 字段会覆盖原有对话模板的对应属性。 而当 model_name 是新名字时,它会把将 BaseChatTemplate 直接注册成新的对话模板。其具体定义可以参考BaseChatTemplate。 这样一个模板将会以下面的形式进行拼接。 {system}{meta_instruction}{eosys}{user}{user_content}{eoh}{assistant} {assistant_content}{eoa}{separator}{user}... **推理命令:** lmdeploy serve api_server model_dir --chat-template ${JSON_FILE} 例如:lmdeploy serve api_server G:\python_ws_g\code\llm\llmlearning\result\mymodel --chat-template G:\python_ws_g\code\llm\llmlearning\LLMlearn\emo_conversation_project\template_trans\a.json lmdeploy serve api_server /root/autodl-tmp/mymodel --chat-template /root/autodl-tmp/a.json --quant-policy 8 也可以在通过接口函数传入,比如: from lmdeploy import ChatTemplateConfig, serve serve('internlm/internlm2_5-7b-chat', chat_template_config=ChatTemplateConfig.from_json('${JSON_FILE}')) **方法二:以 LMDeploy 现有对话模板,自定义一个python对话模板类,注册成功后直接用即可。** from lmdeploy.model import MODELS, BaseChatTemplate @MODELS.register_module(name='customized_model') class CustomizedModel(BaseChatTemplate): """A customized chat template.""" def __init__(self, system='<|im_start|>system\n', meta_instruction='You are a robot developed by LMDeploy.', user='<|im_start|>user\n', assistant='<|im_start|>assistant\n', eosys='<|im_end|>\n', eoh='<|im_end|>\n', eoa='<|im_end|>', separator='\n', stop_words=['<|im_end|>', '<|action_end|>']): super().__init__(system=system, meta_instruction=meta_instruction, eosys=eosys, user=user, eoh=eoh, assistant=assistant, eoa=eoa, separator=separator, stop_words=stop_words) ###### 对话模板转换脚本: import json # 原始模板 original_template = dict( SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"), INSTRUCTION=( "<|im_start|>user\n{input}<|im_end|>\n" "<|im_start|>assistant\n" ), SUFFIX="<|im_end|>", SUFFIX_AS_EOS=True, SEP="\n", STOP_WORDS=["<|im_end|>", "<|endoftext|>"], ) # 转换为目标格式 converted_template = { "model_name": "your awesome chat template name", "system": "<|im_start|>system\n", "meta_instruction": "You are a robot developed by LMDeploy.", "eosys": "<|im_end|>\n", "user": "<|im_start|>user\n", "eoh": "<|im_end|>\n", "assistant": "<|im_start|>assistant\n", "eoa": "<|im_end|>", "separator": original_template.get("SEP", "\n"), "capability": "chat", "stop_words": ["<|im_end|>"] } # 保存为 JSON 文件 save_path = r"G:\python_ws_g\code\llm\llmlearning\LLMlearn\emo_conversation_project\template_trans\a.json" try: with open(save_path, 'w', encoding='utf-8') as f: json.dump(converted_template, f, indent=4, ensure_ascii=False) print(f"转换后的模板已成功保存到 {save_path}") except Exception as e: print(f"保存失败: {e}") json结果: { "model_name": "zyhhsss", "system": "<|im_start|>system\n", "meta_instruction": "You are a robot developed by LMDeploy.", "eosys": "<|im_end|>\n", "user": "<|im_start|>user\n", "eoh": "<|im_end|>\n", "assistant": "<|im_start|>assistant\n", "eoa": "<|im_end|>", "separator": "\n", "capability": "chat", "stop_words": [ "<|im_end|>" ] } **转换例子2:** xtuner的对话模板 qwen_chat=dict( SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"), INSTRUCTION=("<|im_start|>user\n{input}<|im_end|>\n" "<|im_start|>assistant\n"), SUFFIX="<|im_end|>", SUFFIX_AS_EOS=True, SEP="\n", STOP_WORDS=["<|im_end|>", "<|endoftext|>"], ) lmdeploy的json: { "model_name": "your awesome chat template name", "system": "<|im_start|>system\n", "meta_instruction": "You are a robot developed by LMDeploy.", "eosys": "<|im_end|>\n", "user": "<|im_start|>user\n", "eoh": "<|im_end|>\n", "assistant": "<|im_start|>assistant\n", "eoa": "<|im_end|>", "separator": "\n", "capability": "chat", "stop_words": ["<|im_end|>"] } 转换脚本: import json import re def convert_xtuner_to_lmdeploy(xtuner_template: dict, model_name="converted_model"): system_pattern = xtuner_template.get("SYSTEM", "") instruction_pattern = xtuner_template.get("INSTRUCTION", "") suffix = xtuner_template.get("SUFFIX", "") separator = xtuner_template.get("SEP", "\n") stop_words = xtuner_template.get("STOP_WORDS", []) # 提取 meta_instruction 内容(如 {system}) meta_instruction_match = re.search(r"{(\w+)}", system_pattern) meta_instruction = f"{{{meta_instruction_match.group(1)}}}" if meta_instruction_match else "" lmdeploy_template = { "model_name": model_name, "system": system_pattern.split("{")[0] if "{" in system_pattern else "", "meta_instruction": meta_instruction, "eosys": suffix + "\n", "user": instruction_pattern.split("{input}")[0] if "{input}" in instruction_pattern else "", "eoh": suffix + "\n", "assistant": re.split(re.escape(suffix), instruction_pattern.split("{input}")[-1])[0] if "{input}" in instruction_pattern else "", "eoa": suffix, "separator": separator, "capability": "chat", "stop_words": stop_words } return lmdeploy_template # 示例 xtuner 模板 xtuner_chat = dict( SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"), INSTRUCTION=("<|im_start|>user\n{input}<|im_end|>\n<|im_start|>assistant\n"), SUFFIX="<|im_end|>", SUFFIX_AS_EOS=True, SEP="\n", STOP_WORDS=["<|im_end|>", "<|endoftext|>"], ) # 转换 lmdeploy_json = convert_xtuner_to_lmdeploy(xtuner_chat, model_name="qwen_chat") # 保存为 JSON 文件 with open("qwen_chat_lmdeploy_template.json", "w", encoding="utf-8") as f: json.dump(lmdeploy_json, f, indent=4, ensure_ascii=False) print("转换完成!结果已保存为 qwen_chat_lmdeploy_template.json") 转换结果: { "model_name": "qwen_chat", "system": "<|im_start|>system\n", "meta_instruction": "{system}", "eosys": "<|im_end|>\n", "user": "<|im_start|>user\n", "eoh": "<|im_end|>\n", "assistant": "", "eoa": "<|im_end|>", "separator": "\n", "capability": "chat", "stop_words": [ "<|im_end|>", "<|endoftext|>" ] } **✅ 字段映射解释:** | xtuner 字段 | lmdeploy 字段 | 说明 | |-----------------|-------------------------------|----------------------------------------| | `SYSTEM` | `system` + `meta_instruction` | 前缀是 `system` 字段,内容是 `meta_instruction` | | `INSTRUCTION` | `user` + `eoh` + `assistant` | 模板中用户提问(user)、助手回应(assistant) | | `SUFFIX` | `eoa` | assistant 结束标识符 | | `SEP` | `separator` | 对话分隔符 | | `STOP_WORDS` | `stop_words` | 停止生成的标记 | | `SUFFIX_AS_EOS` | 自动体现在 stop_words | 无需额外字段,\`\< | #### 4.5 前端界面(Streamlit) #### 4.6 傻瓜式操作手册 ##### xtuner脚本 # Copyright (c) OpenMMLab. All rights reserved. import torch from datasets import load_dataset from mmengine.dataset import DefaultSampler from mmengine.hooks import ( CheckpointHook, DistSamplerSeedHook, IterTimerHook, LoggerHook, ParamSchedulerHook, ) from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR from peft import LoraConfig from torch.optim import AdamW from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig from xtuner.dataset import process_hf_dataset from xtuner.dataset.collate_fns import default_collate_fn from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory from xtuner.engine.hooks import ( DatasetInfoHook, EvaluateChatHook, VarlenAttnArgsToMessageHubHook, ) from xtuner.engine.runner import TrainLoop from xtuner.model import SupervisedFinetune from xtuner.parallel.sequence import SequenceParallelSampler from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE ####################################################################### # PART 1 Settings # ####################################################################### # Model pretrained_model_name_or_path = "/root/autodl-tmp/model/Qwen2.5-7B-Instruct" use_varlen_attn = False # Data data_files = '/root/autodl-tmp/xtuner-main/data/wenrou.json'#数据集 prompt_template = PROMPT_TEMPLATE.qwen_chat max_length = 150 pack_to_max_length = True # parallel sequence_parallel_size = 1 # Scheduler & Optimizer batch_size = 15 # per_device accumulative_counts = 16 accumulative_counts *= sequence_parallel_size dataloader_num_workers = 0 max_epochs = 3000 optim_type = AdamW lr = 2e-4 betas = (0.9, 0.999) weight_decay = 0 max_norm = 1 # grad clip warmup_ratio = 0.03 # Save save_steps = 500 save_total_limit = 4 # Maximum checkpoints to keep (-1 means unlimited) # Evaluate the generation performance during the training evaluation_freq = 500 SYSTEM = SYSTEM_TEMPLATE.alpaca evaluation_inputs = ["闺蜜把我秘密当谈资,该不该撕破脸?", "老妈非让我嫁给她同事儿子,怎么逃啊!", "同事抢功时故意提高音量,要当场揭穿吗?", "男朋友给女主播刷火箭,算精神出轨吗?", "室友半夜和对象视频娇喘,怎么提醒?", "亲戚说我不生孩子就是自私,好想掀桌!", "大学生毕业工资不够找我,我给你补个蛋"] ####################################################################### # PART 2 Model & Tokenizer # ####################################################################### tokenizer = dict( type=AutoTokenizer.from_pretrained, pretrained_model_name_or_path=pretrained_model_name_or_path, trust_remote_code=True, padding_side="right", ) model = dict( type=SupervisedFinetune, use_varlen_attn=use_varlen_attn, llm=dict( type=AutoModelForCausalLM.from_pretrained, pretrained_model_name_or_path=pretrained_model_name_or_path, trust_remote_code=True, torch_dtype=torch.float16, quantization_config=dict( type=BitsAndBytesConfig, load_in_4bit=False, load_in_8bit=True, llm_int8_threshold=6.0, llm_int8_has_fp16_weight=False, bnb_4bit_compute_dtype=torch.float16, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", ), ), lora=dict( type=LoraConfig, r=64, lora_alpha=128, lora_dropout=0.1, bias="none", task_type="CAUSAL_LM", ), ) ####################################################################### # PART 3 Dataset & Dataloader # ####################################################################### alpaca_en = dict( type=process_hf_dataset, dataset=dict(type=load_dataset, path="json",data_files=data_files), tokenizer=tokenizer, max_length=max_length, dataset_map_fn=None, template_map_fn=dict(type=template_map_fn_factory, template=prompt_template), remove_unused_columns=True, shuffle_before_pack=True, pack_to_max_length=pack_to_max_length, use_varlen_attn=use_varlen_attn, ) sampler = SequenceParallelSampler if sequence_parallel_size > 1 else DefaultSampler train_dataloader = dict( batch_size=batch_size, num_workers=dataloader_num_workers, dataset=alpaca_en, sampler=dict(type=sampler, shuffle=True), collate_fn=dict(type=default_collate_fn, use_varlen_attn=use_varlen_attn), ) ####################################################################### # PART 4 Scheduler & Optimizer # ####################################################################### # optimizer optim_wrapper = dict( type=AmpOptimWrapper, optimizer=dict(type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay), clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False), accumulative_counts=accumulative_counts, loss_scale="dynamic", dtype="float16", ) # learning policy # More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md # noqa: E501 param_scheduler = [ dict( type=LinearLR, start_factor=1e-5, by_epoch=True, begin=0, end=warmup_ratio * max_epochs, convert_to_iter_based=True, ), dict( type=CosineAnnealingLR, eta_min=0.0, by_epoch=True, begin=warmup_ratio * max_epochs, end=max_epochs, convert_to_iter_based=True, ), ] # train, val, test setting train_cfg = dict(type=TrainLoop, max_epochs=max_epochs) ####################################################################### # PART 5 Runtime # ####################################################################### # Log the dialogue periodically during the training process, optional custom_hooks = [ dict(type=DatasetInfoHook, tokenizer=tokenizer), dict( type=EvaluateChatHook, tokenizer=tokenizer, every_n_iters=evaluation_freq, evaluation_inputs=evaluation_inputs, system=SYSTEM, prompt_template=prompt_template, ), ] if use_varlen_attn: custom_hooks += [dict(type=VarlenAttnArgsToMessageHubHook)] # configure default hooks default_hooks = dict( # record the time of every iteration. timer=dict(type=IterTimerHook), # print log every 10 iterations. logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10), # enable the parameter scheduler. param_scheduler=dict(type=ParamSchedulerHook), # save checkpoint per `save_steps`. checkpoint=dict( type=CheckpointHook, by_epoch=False, interval=save_steps, max_keep_ckpts=save_total_limit, ), # set sampler seed in distributed evrionment. sampler_seed=dict(type=DistSamplerSeedHook), ) # configure environment env_cfg = dict( # whether to enable cudnn benchmark cudnn_benchmark=False, # set multi process parameters mp_cfg=dict(mp_start_method="fork", opencv_num_threads=0), # set distributed parameters dist_cfg=dict(backend="nccl"), ) # set visualizer visualizer = None # set log level log_level = "INFO" # load from which checkpoint load_from = None # whether to resume training from the loaded checkpoint resume = False # Defaults to use random seed and disable `deterministic` randomness = dict(seed=None, deterministic=False) # set log processor log_processor = dict(by_epoch=False) ### 微调项目总结: qwen-1.8b 4090 6h 最终loss 0.09