大模型应用开发自学笔记

理论学习地址：

https://zh.d2l.ai/chapter_linear-networks/index.html

autodl学术加速：

复制代码

source /etc/network_turbo

conda常见操作:

删除：

复制代码

conda remove --name myenv --all -y

导出：

复制代码

conda env export > environment.yml

导入：

复制代码

conda env create -f environment.yml

复制代码

修改配置：
conda config --add envs_dirs /root/autodl-tmp/conda/envs
conda config --add pkgs_dirs /root/autodl-tmp/conda/pkgs
验证配置是否生效：
conda config --show | grep -A 2 "envs_dirs"
conda config --show | grep -A 2 "pkgs_dirs"

修改.bashrc

复制代码

root@autodl-container-271149a41f-a69b11b9:~# which conda
/root/miniconda3/bin/conda



vi ~/.bashrc

# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/root/miniconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "/path/to/conda/etc/profile.d/conda.sh" ]; then
        . "/path/to/conda/etc/profile.d/conda.sh"
    else
        export PATH="/path/to/conda/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<

conda activate opencompass

source ~/.bashrc

换源：

复制代码

-i https://pypi.mirrors.ustc.edu.cn/simple/

测试专用代码：

复制代码

pip install openai

#多轮对话
from openai import OpenAI

#定义多轮对话方法
def run_chat_session():
    #初始化客户端
    client = OpenAI(base_url="http://localhost:23333/v1/",api_key="suibianxie")
    #初始化对话历史
    chat_history = []
    #启动对话循环
    while True:
        #获取用户输入
        user_input = input("用户：")
        if user_input.lower() == "exit":
            print("退出对话。")
            break
        #更新对话历史(添加用户输入)
        chat_history.append({"role":"user","content":user_input})
        #调用模型回答
        try:
            chat_complition = client.chat.completions.create(messages=chat_history,model="/root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct")
            #获取最新回答
            model_response = chat_complition.choices[0]
            print("AI:",model_response.message.content)
            #更新对话历史（添加AI模型的回复）
            chat_history.append({"role":"assistant","content":model_response.message.content})
        except Exception as e:
            print("发生错误：",e)
            break
if __name__ == '__main__':
    run_chat_session()

ptorch:

https://pytorch.org/

复制代码

cuda12.4：
ubuntu：
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 -i https://pypi.mirrors.ustc.edu.cn/simple/

cudacu121：
win： 
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 -f https://mirrors.aliyun.com/pytorch-wheels/cu121

cuda11.8：
win： 
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118  -i https://pypi.mirrors.ustc.edu.cn/simple/

WSL：

复制代码

【超详细的WSL教程：Windows上的Linux子系统】 https://www.bilibili.com/video/BV1tW42197za/?share_source=copy_web&vd_source=5260dbbb879acb9193fb2e7261e27631

常见对话生成数据集：

【对话生成】常见对话生成数据集整理，含下载链接(更新至2022.06.04)_日常对话得训练数据集-CSDN博客

大模型平台：

huggingface：

官网：

https://huggingface.co/

dataset（nlp）：

https://huggingface.co/docs/datasets/quickstart#nlp

魔塔：

概览 · 魔搭社区

复制代码

pip install modelscope

下载模型：
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct

下载单个文件：
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct README.md --local_dir ./dir

sdk下载：
#模型下载

from modelscope import snapshot_download
cache_dir="/root/autodl-tmp/model"
model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct',cache_dir=cache_dir)

langchain：

中文文档：

LangChain 介绍 | 🦜️🔗 Langchain

pipo算力云（API调用）

https://ppinfra.com/invitation

推理部署框架：

ollama

Ollama

配置环境

复制代码

下载:
curl -fsSL https://ollama.com/install.sh | sh

启动：
ollama serve

运行：
ollama run ollama run qwen2.5:0.5b
运行自定义gguf：

创建ModelFile：
ModelFile内容如下：
#GGUF文件路径
FROM /root/autodl-tmp/Llama3-8B/LLM-Research/Meta-Llama-3-8B-Instruct-gguf8.gguf

创建自定义模型：
ollama create zyhhsss --file ./ModeFile
运行：
ollama run zyhhsss

删除：
ollama list
ollama rm zyhhsss

安装命令解释：

复制代码

1. 命令的作用
(a) curl 部分
curl 是一个命令行工具，用于从指定的 URL 下载内容。
参数解释：
-f: 如果请求失败（例如 HTTP 状态码为 404 或 500），则不输出错误信息到终端。
-s: 静默模式，不显示进度条或错误信息。
-S: 在静默模式下，如果发生错误，仍然显示错误信息。
-L: 如果遇到重定向（如 301 或 302），自动跟随新的地址。
组合起来，-fsSL 表示"安静地下载文件，并处理重定向"。
https://ollama.com/install.sh：这是脚本的下载地址。curl 将从这个 URL 下载脚本的内容。
(b) | sh 部分
| 是管道符号，表示将 curl 的输出直接传递给下一个命令。
sh 是一个 Shell 解释器，用于执行从 curl 下载的脚本内容。
整体来说，这条命令的含义是：

使用 curl 从 https://ollama.com/install.sh 下载脚本。
将脚本内容通过管道传递给 sh，实时执行脚本中的命令。
2. 脚本会做什么？
运行此命令后，脚本的内容会直接影响您的系统。通常情况下，这种安装脚本可能会执行以下操作：

检查系统的环境（如操作系统、架构等）。
下载必要的二进制文件或依赖项。
安装软件到特定位置（如 /usr/local/bin 或 /opt）。
创建快捷方式或配置文件。
添加服务或设置环境变量。
具体行为取决于 install.sh 脚本的内容。

3. 风险与注意事项
虽然这种"一键安装"方式非常方便，但也存在一定的风险。以下是一些需要注意的事项：

(a) 脚本来源是否可信
您正在从 https://ollama.com/install.sh 下载脚本并直接执行，这意味着脚本的内容完全决定了它对您的系统的影响。
如果脚本被恶意篡改，可能会导致安全问题（如安装恶意软件、窃取数据等）。
建议：
在运行之前，先检查脚本的内容。例如：

bash
浅色版本
curl -fsSL https://ollama.com/install.sh | less
这会将脚本内容输出到终端供您查看。确认无误后再运行。

(b) 是否需要管理员权限
如果脚本需要写入系统目录（如 /usr/local/bin），可能需要使用 sudo 提升权限：
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | sudo sh
注意：使用 sudo 运行脚本时要格外小心，因为它会以超级用户权限执行所有命令。
(c) 日志记录
为了便于排查问题，可以将脚本的输出保存到日志文件中：
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | sh > install.log 2>&1
这样，所有输出（包括标准输出和错误信息）都会被记录到 install.log 文件中。
4. 替代方法：手动下载并检查脚本
如果您希望更安全地执行此操作，可以采用以下步骤：

(a) 手动下载脚本
使用 curl 或 wget 下载脚本到本地：

bash
浅色版本
curl -fsSL https://ollama.com/install.sh -o install.sh
(b) 检查脚本内容
使用文本编辑器或查看工具检查脚本内容：

bash
浅色版本
less install.sh
(c) 执行脚本
确认脚本无误后，再运行它：

bash
浅色版本
sh install.sh
或者使用 chmod 赋予执行权限后运行：

bash
浅色版本
chmod +x install.sh
./install.sh
5. 总结
curl -fsSL https://ollama.com/install.sh | sh 是一种快速下载并执行脚本的方式。
它的本质是从远程服务器获取脚本内容，并通过 sh 实时执行。
优点：简单快捷。
缺点：存在潜在的安全风险，尤其是当脚本来源不可信时。
建议：在运行之前检查脚本内容，确保其来源可信，并根据需要记录日志以便排查问题。

vllm

欢迎使用 vLLM --- vLLM 文档

对话模板

OpenAI 兼容服务器 --- vLLM 文档

指定jinja2文件启动：

复制代码

vllm serve <model> --chat-template ./path-to-chat-template.jinja

lmdeploy

欢迎来到 LMDeploy 的中文教程！ --- lmdeploy

复制代码

安装：
conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
pip install lmdeploy

pip install partial-json-parser
打开cli:
lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct --server-port 23333 --model-name zyhhsss

对话模板

自定义对话模板 --- lmdeploy

lmdeploy官方标准json

复制代码

{
    "model_name": "your awesome chat template name",
    "system": "<|im_start|>system\n",
    "meta_instruction": "You are a robot developed by LMDeploy.",
    "eosys": "<|im_end|>\n",
    "user": "<|im_start|>user\n",
    "eoh": "<|im_end|>\n",
    "assistant": "<|im_start|>assistant\n",
    "eoa": "<|im_end|>",
    "separator": "\n",
    "capability": "chat",
    "stop_words": ["<|im_end|>"]
}

json格式：

复制代码

lmdeploy serve api_server model --chat-template ${JSON_FILE}

并行推理：

推荐使用 Key-Value(KV) Cache 量化

复制代码

lmdeploy serve api_server internlm/internlm2_5-7b-chat --quant-policy 8

turbomind加速：

复制代码

启动模型：
lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct --server-port 23333
turbomind加速：
lmdeploy chat modelname


lmdeploy chat turbomind aaa --model-name bbb

模型转换：
lmdeploy convert 模型coinfig中的name huggingface的模型路径
生成的ws在命令执行的位置

environment.yml

env+cuda12.4

Ubuntu：

复制代码

name: lmdeploy
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - _openmp_mutex=5.1=1_gnu
  - bzip2=1.0.8=h5eee18b_6
  - ca-certificates=2025.2.25=h06a4308_0
  - ld_impl_linux-64=2.40=h12ee557_0
  - libffi=3.4.4=h6a678d5_1
  - libgcc-ng=11.2.0=h1234567_1
  - libgomp=11.2.0=h1234567_1
  - libstdcxx-ng=11.2.0=h1234567_1
  - libuuid=1.41.5=h5eee18b_0
  - ncurses=6.4=h6a678d5_0
  - openssl=3.0.16=h5eee18b_0
  - pip=25.0=py310h06a4308_0
  - python=3.10.16=he870216_1
  - readline=8.2=h5eee18b_0
  - setuptools=75.8.0=py310h06a4308_0
  - sqlite=3.45.3=h5eee18b_0
  - tk=8.6.14=h39e8969_0
  - tzdata=2025a=h04d1e81_0
  - wheel=0.45.1=py310h06a4308_0
  - xz=5.6.4=h5eee18b_1
  - zlib=1.2.13=h5eee18b_1
  - pip:
      - accelerate==1.5.2
      - addict==2.4.0
      - aiosignal==1.3.2
      - airportsdata==20250224
      - annotated-types==0.7.0
      - anyio==4.9.0
      - attrs==25.3.0
      - certifi==2025.1.31
      - cfgv==3.4.0
      - charset-normalizer==3.4.1
      - click==8.1.8
      - cloudpickle==3.1.1
      - diskcache==5.6.3
      - distlib==0.3.9
      - distro==1.9.0
      - einops==0.8.1
      - exceptiongroup==1.2.2
      - fastapi==0.115.12
      - filelock==3.18.0
      - fire==0.7.0
      - frozenlist==1.5.0
      - fsspec==2025.3.0
      - genson==1.3.0
      - h11==0.14.0
      - httpcore==1.0.7
      - httpx==0.28.1
      - huggingface-hub==0.29.3
      - identify==2.6.9
      - idna==3.10
      - interegular==0.3.3
      - iso3166==2.1.1
      - jinja2==3.1.6
      - jiter==0.9.0
      - jsonschema==4.23.0
      - jsonschema-specifications==2024.10.1
      - lark==1.2.2
      - lmdeploy==0.7.2.post1
      - markdown-it-py==3.0.0
      - markupsafe==3.0.2
      - mdurl==0.1.2
      - mmengine-lite==0.10.7
      - mpmath==1.3.0
      - msgpack==1.1.0
      - nest-asyncio==1.6.0
      - networkx==3.4.2
      - nodeenv==1.9.1
      - numpy==1.26.4
      - nvidia-cublas-cu12==12.4.5.8
      - nvidia-cuda-cupti-cu12==12.4.127
      - nvidia-cuda-nvrtc-cu12==12.4.127
      - nvidia-cuda-runtime-cu12==12.4.127
      - nvidia-cudnn-cu12==9.1.0.70
      - nvidia-cufft-cu12==11.2.1.3
      - nvidia-curand-cu12==10.3.5.147
      - nvidia-cusolver-cu12==11.6.1.9
      - nvidia-cusparse-cu12==12.3.1.170
      - nvidia-ml-py==12.570.86
      - nvidia-nccl-cu12==2.21.5
      - nvidia-nvjitlink-cu12==12.4.127
      - nvidia-nvtx-cu12==12.4.127
      - openai==1.69.0
      - outlines==0.2.1
      - outlines-core==0.1.26
      - packaging==24.2
      - partial-json-parser==0.2.1.1.post5
      - peft==0.14.0
      - pillow==11.1.0
      - platformdirs==4.3.7
      - pre-commit==4.2.0
      - protobuf==6.30.2
      - psutil==7.0.0
      - pydantic==2.11.1
      - pydantic-core==2.33.0
      - pygments==2.19.1
      - pynvml==12.0.0
      - pyyaml==6.0.2
      - ray==2.44.1
      - referencing==0.36.2
      - regex==2024.11.6
      - requests==2.32.3
      - rich==13.9.4
      - rpds-py==0.24.0
      - safetensors==0.5.3
      - sentencepiece==0.2.0
      - shortuuid==1.0.13
      - sniffio==1.3.1
      - starlette==0.46.1
      - sympy==1.13.1
      - termcolor==2.5.0
      - tiktoken==0.9.0
      - tokenizers==0.21.1
      - tomli==2.2.1
      - torch==2.5.1
      - torchvision==0.20.1
      - tqdm==4.67.1
      - transformers==4.50.3
      - triton==3.1.0
      - typing-extensions==4.13.0
      - typing-inspection==0.4.0
      - urllib3==2.3.0
      - uvicorn==0.34.0
      - virtualenv==20.29.3
      - yapf==0.43.0
prefix: /root/miniconda3/envs/lmdeploy

win11：

复制代码

微调框架：

Llamafactory：

端口：7860

LLaMA-Factory/README_zh.md at main · hiyouga/LLaMA-Factory

复制代码

conda:
conda create -n llamafactory python=3.10 -y
conda activate llamafactory

conda remove --name myenv --all

版本冲突:
解决一：
pip install -e .
pip install gradio==5.23.1
pip install bitsandbytes==0.45.3
pip install peft ==0.12.0

DISABLE_VERSION_CHECK=1 llamafactory-cli webui

解决二：
bitsandbytes=0.44.0
accelerate=1.1.1
peft= 0.12.0
transformers=4.49.0
torch=2.5.1

解决三：
docker
解决四：用requirement.txt/environment.yml


git:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
推荐使用：

pip install -e .

bug！！！！
这个包（gradio）解析json有问题： 
 5.23.1这个版本可以但是原文中里面提示：5.21.0却不行
pip install --force-reinstall gradio==5.21.0

pip install --upgrade gradio

使用flashattn2加速：
pip install bitsandbytes==0.43.3

启动：
(llmdeploy) root@autodl-container-2fb0448cad-36aa5df2:~/autodl-tmp/LLaMA-Factory/LLaMA-Factory# llamafactory-cli
----------------------------------------------------------------------
| Usage:                                                             |
|   llamafactory-cli api -h: launch an OpenAI-style API server       |
|   llamafactory-cli chat -h: launch a chat interface in CLI         |
|   llamafactory-cli eval -h: evaluate models                        |
|   llamafactory-cli export -h: merge LoRA adapters and export model |
|   llamafactory-cli train -h: train models                          |
|   llamafactory-cli webchat -h: launch a chat interface in Web UI   |
|   llamafactory-cli webui: launch LlamaBoard                        |
|   llamafactory-cli version: show version info                      |
----------------------------------------------------------------------

llamafactory-cli webui

注意：

复制代码

在 Python 项目中，setup.py 文件通常会包含两个主要部分来定义依赖项：

install_requires：
这是项目运行所必需的基础依赖。
这些依赖项会在你运行 pip install . 或 pip install -e . 时被安装。
extras_require：
这是项目的可选依赖组（如 torch、metrics 等）。
这些依赖项只有在明确指定时才会被安装，例如通过 pip install -e ".[torch,metrics]"。

environment.yml

ubuntu+cuda12.4

复制代码

name: llamafactory
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - _openmp_mutex=5.1=1_gnu
  - bzip2=1.0.8=h5eee18b_6
  - ca-certificates=2025.2.25=h06a4308_0
  - ld_impl_linux-64=2.40=h12ee557_0
  - libffi=3.4.4=h6a678d5_1
  - libgcc-ng=11.2.0=h1234567_1
  - libgomp=11.2.0=h1234567_1
  - libstdcxx-ng=11.2.0=h1234567_1
  - libuuid=1.41.5=h5eee18b_0
  - ncurses=6.4=h6a678d5_0
  - openssl=3.0.16=h5eee18b_0
  - pip=25.0=py310h06a4308_0
  - python=3.10.16=he870216_1
  - readline=8.2=h5eee18b_0
  - setuptools=75.8.0=py310h06a4308_0
  - sqlite=3.45.3=h5eee18b_0
  - tk=8.6.14=h39e8969_0
  - wheel=0.45.1=py310h06a4308_0
  - xz=5.6.4=h5eee18b_1
  - zlib=1.2.13=h5eee18b_1
  - pip:
      - accelerate==1.4.0
      - aiofiles==23.2.1
      - aiohappyeyeballs==2.6.1
      - aiohttp==3.11.14
      - aiosignal==1.3.2
      - annotated-types==0.7.0
      - anyio==4.9.0
      - async-timeout==5.0.1
      - attrs==25.3.0
      - audioread==3.0.1
      - av==14.2.0
      - bitsandbytes==0.45.3
      - certifi==2025.1.31
      - cffi==1.17.1
      - charset-normalizer==3.4.1
      - click==8.1.8
      - contourpy==1.3.1
      - cycler==0.12.1
      - datasets==3.3.2
      - decorator==5.2.1
      - dill==0.3.8
      - docstring-parser==0.16
      - einops==0.8.1
      - exceptiongroup==1.2.2
      - fastapi==0.115.12
      - ffmpy==0.5.0
      - filelock==3.18.0
      - fire==0.7.0
      - fonttools==4.56.0
      - frozenlist==1.5.0
      - fsspec==2024.12.0
      - gradio==5.23.1
      - gradio-client==1.8.0
      - groovy==0.1.2
      - h11==0.14.0
      - httpcore==1.0.7
      - httpx==0.28.1
      - huggingface-hub==0.29.3
      - idna==3.10
      - jinja2==3.1.6
      - joblib==1.4.2
      - kiwisolver==1.4.8
      - lazy-loader==0.4
      - librosa==0.11.0
      - llamafactory==0.9.3.dev0
      - llvmlite==0.44.0
      - markdown-it-py==3.0.0
      - markupsafe==2.1.5
      - matplotlib==3.10.1
      - mdurl==0.1.2
      - mpmath==1.3.0
      - msgpack==1.1.0
      - multidict==6.2.0
      - multiprocess==0.70.16
      - networkx==3.4.2
      - numba==0.61.0
      - numpy==1.26.4
      - nvidia-cublas-cu12==12.4.5.8
      - nvidia-cuda-cupti-cu12==12.4.127
      - nvidia-cuda-nvrtc-cu12==12.4.127
      - nvidia-cuda-runtime-cu12==12.4.127
      - nvidia-cudnn-cu12==9.1.0.70
      - nvidia-cufft-cu12==11.2.1.3
      - nvidia-curand-cu12==10.3.5.147
      - nvidia-cusolver-cu12==11.6.1.9
      - nvidia-cusparse-cu12==12.3.1.170
      - nvidia-cusparselt-cu12==0.6.2
      - nvidia-nccl-cu12==2.21.5
      - nvidia-nvjitlink-cu12==12.4.127
      - nvidia-nvtx-cu12==12.4.127
      - orjson==3.10.16
      - packaging==24.2
      - pandas==2.2.3
      - peft==0.15.1
      - pillow==11.1.0
      - platformdirs==4.3.7
      - pooch==1.8.2
      - propcache==0.3.1
      - protobuf==6.30.2
      - psutil==7.0.0
      - pyarrow==19.0.1
      - pycparser==2.22
      - pydantic==2.11.1
      - pydantic-core==2.33.0
      - pydub==0.25.1
      - pygments==2.19.1
      - pyparsing==3.2.3
      - python-dateutil==2.9.0.post0
      - python-multipart==0.0.20
      - pytz==2025.2
      - pyyaml==6.0.2
      - regex==2024.11.6
      - requests==2.32.3
      - rich==13.9.4
      - ruff==0.11.2
      - safehttpx==0.1.6
      - safetensors==0.5.3
      - scikit-learn==1.6.1
      - scipy==1.15.2
      - semantic-version==2.10.0
      - sentencepiece==0.2.0
      - shellingham==1.5.4
      - shtab==1.7.1
      - six==1.17.0
      - sniffio==1.3.1
      - soundfile==0.13.1
      - soxr==0.5.0.post1
      - sse-starlette==2.2.1
      - starlette==0.46.1
      - sympy==1.13.1
      - termcolor==2.5.0
      - threadpoolctl==3.6.0
      - tiktoken==0.9.0
      - tokenizers==0.21.0
      - tomlkit==0.13.2
      - torch==2.6.0
      - tqdm==4.67.1
      - transformers==4.49.0
      - triton==3.2.0
      - trl==0.9.6
      - typer==0.15.2
      - typing-extensions==4.13.0
      - typing-inspection==0.4.0
      - tyro==0.8.14
      - tzdata==2025.2
      - urllib3==2.3.0
      - uvicorn==0.34.0
      - websockets==15.0.1
      - xxhash==3.5.0
      - yarl==1.18.3
prefix: /root/miniconda3/envs/llamafactory

对话模板转jinjia2：

放在src/llamafactory/data目录下

python 复制代码

import sys
import os

# 将项目根目录添加到 Python 路径
root_dir = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
sys.path.append(root_dir)

from llamafactory.data.template import TEMPLATES
from transformers import AutoTokenizer

# 1. 初始化分词器（任意支持的分词器均可）
tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/llm/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")

# 2. 获取模板对象
template_name = "qwen"  # 替换为你需要查看的模板名称
template = TEMPLATES[template_name]

# 3. 修复分词器的 Jinja 模板
template.fix_jinja_template(tokenizer)

# 4. 直接输出模板的 Jinja 格式
print("=" * 40)
print(f"Template [{template_name}] 的 Jinja 格式:")
print("=" * 40)
print(tokenizer.chat_template)

Xtuner：

官网：

欢迎来到 XTuner 的中文文档 --- XTuner 0.2.0rc0 文档

配置环境：

复制代码

安装环境：
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env
//conda env create -f environment.yml
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[deepspeed]' -i https://pypi.mirrors.ustc.edu.cn/simple/
版本冲突：
runtime.txt中
torch==2.5.1
torchvision==0.20.1
-
验证：
xtuner list-cfg

训练：
仅支持微调configs下的模型
见下方训练脚本

启动微调脚本
xtuner train internlm2_chat_1_8b_qlora_alpaca_e3.py  --work-dir

模型转换为huggingface模型：
xtuner convert pth_to_hf ${FINETUNE_CFG} ${PTH_PATH} ${SAVE_PATH}
# 例如：xtuner convert pth_to_hf /root/autodl-tmp/xtuner-main/xtuner-main/jiaoben/qwen1_5_1_8b_chat_qlora_alpaca_e3.py /root/autodl-tmp/xtuner-main/xtuner-main/work_dirs/qwen1_5_1_8b_chat_qlora_alpaca_e3/iter_2500.pth /root/autodl-tmp/xtuner-main/xtu
ner-main/huggingface


lora/qlora进行模型合并：
xtuner convert merge ${基座模型} ${Huggingface模型} ${合并模型路径}
例如：
xtuner convert merge /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct /root/autodl-tmp/xtuner-main/xtuner-main/huggingface /root/autodl-tmp/xtuner-main/xtuner-main/merge


多卡并行：
# 以下命令根据需要任选其一
xtuner train xxx --deepspeed deepspeed_zero1
xtuner train xxx --deepspeed deepspeed_zero2
xtuner train xxx --deepspeed deepspeed_zero2_offload
xtuner train xxx --deepspeed deepspeed_zero3
xtuner train xxx --deepspeed deepspeed_zero3_offload

用下面这个多卡并行
NPROC_PER_NODE=${GPU_NUM} xtuner train ./config.py --deepspeed deepspeed_zero2

python脚本模板：

一共修改14个（最下面有个load权重）

复制代码

# Copyright (c) OpenMMLab. All rights reserved.
import torch
from datasets import load_dataset
from mmengine.dataset import DefaultSampler
from mmengine.hooks import (
    CheckpointHook,
    DistSamplerSeedHook,
    IterTimerHook,
    LoggerHook,
    ParamSchedulerHook,
)
from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
from peft import LoraConfig
from torch.optim import AdamW
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

from xtuner.dataset import process_hf_dataset
from xtuner.dataset.collate_fns import default_collate_fn
from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory
from xtuner.engine.hooks import (
    DatasetInfoHook,
    EvaluateChatHook,
    VarlenAttnArgsToMessageHubHook,
)
from xtuner.engine.runner import TrainLoop
from xtuner.model import SupervisedFinetune
from xtuner.parallel.sequence import SequenceParallelSampler
from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE

#######################################################################
#                          PART 1  Settings                           #
#######################################################################
# Model
# pretrained_model_name_or_path = "Qwen/Qwen1.5-1.8B-Chat"


#基座模型 1

pretrained_model_name_or_path = "/root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct"
use_varlen_attn = False

# Data 2


#
# data_files = [
#     '/root/public/data/target_data_1.json',
#     '/root/public/data/target_data_2.json',
#     '/root/public/data/target_data_3.json'
# ]

data_files = '/root/autodl-tmp/xtuner-main/xtuner-main/data/output.json'#数据集
# 提示词模板 3
prompt_template = PROMPT_TEMPLATE.qwen_chat
# 长度 4
max_length = 512
pack_to_max_length = True

# parallel
sequence_parallel_size = 1

# Scheduler & Optimizer
# 优化器
# 批次 5
batch_size = 10  # per_device
accumulative_counts = 16
accumulative_counts *= sequence_parallel_size
dataloader_num_workers = 0
# 最大轮次 6
max_epochs = 3000
optim_type = AdamW
lr = 2e-4
betas = (0.9, 0.999)
weight_decay = 0
max_norm = 1  # grad clip
warmup_ratio = 0.03

# 多少轮保存 7
save_steps = 500
# 最大保存数量 8
save_total_limit = 2  # Maximum checkpoints to keep (-1 means unlimited)

# Evaluate the generation performance during the training
evaluation_freq = 500
SYSTEM = SYSTEM_TEMPLATE.alpaca
# 主观验证 9
evaluation_inputs = ["这只烤乳猪火出圈啦", "朕决定于今日称帝","珍爱生命，远离死亡"
                     ,"吃书有助于消化知识"]

#######################################################################
#                      PART 2  Model & Tokenizer                      #
#######################################################################
tokenizer = dict(
    type=AutoTokenizer.from_pretrained,
    pretrained_model_name_or_path=pretrained_model_name_or_path,
    trust_remote_code=True,
    padding_side="right",
)

model = dict(
    type=SupervisedFinetune,
    use_varlen_attn=use_varlen_attn,
    llm=dict(
        type=AutoModelForCausalLM.from_pretrained,
        pretrained_model_name_or_path=pretrained_model_name_or_path,
        trust_remote_code=True,
        torch_dtype=torch.float16,
        
        # 微调方法 下面是qlora，用lora给注释掉 10
        quantization_config=dict(
            type=BitsAndBytesConfig,
            # 四位
            load_in_4bit=False,
            # 八位
            load_in_8bit=True,
            llm_int8_threshold=6.0,
            llm_int8_has_fp16_weight=False,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        ),
    ),
    # lora配置 11
    lora=dict(
        type=LoraConfig,
        r=64,
        lora_alpha=128,
        lora_dropout=0.1,
        bias="none",
        task_type="CAUSAL_LM",
    ),
)

#######################################################################
#                      PART 3  Dataset & Dataloader                   #
#######################################################################
alpaca_en = dict(
    type=process_hf_dataset,
    # dataset=dict(type=load_dataset, path=alpaca_en_path),
    # 加载数据集 12
    dataset=dict(type=load_dataset, path="json",data_files=data_files),
    tokenizer=tokenizer,
    max_length=max_length,
    # 加载数据集匹配格式 13
    dataset_map_fn=None,
    template_map_fn=dict(type=template_map_fn_factory, template=prompt_template),
    remove_unused_columns=True,
    shuffle_before_pack=True,
    pack_to_max_length=pack_to_max_length,
    use_varlen_attn=use_varlen_attn,
)

sampler = SequenceParallelSampler if sequence_parallel_size > 1 else DefaultSampler

train_dataloader = dict(
    batch_size=batch_size,
    num_workers=dataloader_num_workers,
    dataset=alpaca_en,
    sampler=dict(type=sampler, shuffle=True),
    collate_fn=dict(type=default_collate_fn, use_varlen_attn=use_varlen_attn),
)

#######################################################################
#                    PART 4  Scheduler & Optimizer                    #
#######################################################################
# optimizer
# 优化器相关 14
optim_wrapper = dict(
    type=AmpOptimWrapper,
    optimizer=dict(type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
    clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
    accumulative_counts=accumulative_counts,
    loss_scale="dynamic",
    dtype="float16",
)

# learning policy
# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md  # noqa: E501
param_scheduler = [
    dict(
        type=LinearLR,
        start_factor=1e-5,
        by_epoch=True,
        begin=0,
        end=warmup_ratio * max_epochs,
        convert_to_iter_based=True,
    ),
    dict(
        type=CosineAnnealingLR,
        eta_min=0.0,
        by_epoch=True,
        begin=warmup_ratio * max_epochs,
        end=max_epochs,
        convert_to_iter_based=True,
    ),
]

# train, val, test setting
train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)

#######################################################################
#                           PART 5  Runtime                           #
#######################################################################
# Log the dialogue periodically during the training process, optional
custom_hooks = [
    dict(type=DatasetInfoHook, tokenizer=tokenizer),
    dict(
        type=EvaluateChatHook,
        tokenizer=tokenizer,
        every_n_iters=evaluation_freq,
        evaluation_inputs=evaluation_inputs,
        system=SYSTEM,
        prompt_template=prompt_template,
    ),
]

if use_varlen_attn:
    custom_hooks += [dict(type=VarlenAttnArgsToMessageHubHook)]

# configure default hooks
default_hooks = dict(
    # record the time of every iteration.
    timer=dict(type=IterTimerHook),
    # print log every 10 iterations.
    logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
    # enable the parameter scheduler.
    param_scheduler=dict(type=ParamSchedulerHook),
    # save checkpoint per `save_steps`.
    checkpoint=dict(
        type=CheckpointHook,
        by_epoch=False,
        interval=save_steps,
        max_keep_ckpts=save_total_limit,
    ),
    # set sampler seed in distributed evrionment.
    sampler_seed=dict(type=DistSamplerSeedHook),
)

# configure environment
env_cfg = dict(
    # whether to enable cudnn benchmark
    cudnn_benchmark=False,
    # set multi process parameters
    mp_cfg=dict(mp_start_method="fork", opencv_num_threads=0),
    # set distributed parameters
    dist_cfg=dict(backend="nccl"),
)

# set visualizer
visualizer = None

# set log level
log_level = "INFO"

# load from which checkpoint
#15加载权重 load  .pth文件夹
#ep：load_from = "path_to_pth"
load_from = None

# whether to resume training from the loaded checkpoint
resume = False

# Defaults to use random seed and disable `deterministic`
randomness = dict(seed=None, deterministic=False)

# set log processor
log_processor = dict(by_epoch=False)

environment.yml

复制代码

name: xtuner-env
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - _openmp_mutex=5.1=1_gnu
  - bzip2=1.0.8=h5eee18b_6
  - ca-certificates=2025.2.25=h06a4308_0
  - ld_impl_linux-64=2.40=h12ee557_0
  - libffi=3.4.4=h6a678d5_1
  - libgcc-ng=11.2.0=h1234567_1
  - libgomp=11.2.0=h1234567_1
  - libstdcxx-ng=11.2.0=h1234567_1
  - libuuid=1.41.5=h5eee18b_0
  - ncurses=6.4=h6a678d5_0
  - openssl=3.0.16=h5eee18b_0
  - pip=25.0=py310h06a4308_0
  - python=3.10.16=he870216_1
  - readline=8.2=h5eee18b_0
  - setuptools=75.8.0=py310h06a4308_0
  - sqlite=3.45.3=h5eee18b_0
  - tk=8.6.14=h39e8969_0
  - wheel=0.45.1=py310h06a4308_0
  - xz=5.6.4=h5eee18b_1
  - zlib=1.2.13=h5eee18b_1
  - pip:
      - accelerate==1.6.0
      - addict==2.4.0
      - aiohappyeyeballs==2.6.1
      - aiohttp==3.11.16
      - aiosignal==1.3.2
      - annotated-types==0.7.0
      - async-timeout==5.0.1
      - attrs==25.3.0
      - bitsandbytes==0.45.0
      - certifi==2025.1.31
      - charset-normalizer==3.4.1
      - contourpy==1.3.1
      - cycler==0.12.1
      - datasets==3.5.0
      - deepspeed==0.16.2
      - dill==0.3.8
      - einops==0.8.1
      - et-xmlfile==2.0.0
      - filelock==3.18.0
      - fonttools==4.57.0
      - frozenlist==1.5.0
      - fsspec==2024.12.0
      - hjson==3.1.0
      - huggingface-hub==0.30.1
      - idna==3.10
      - imageio==2.37.0
      - jinja2==3.1.6
      - kiwisolver==1.4.8
      - lazy-loader==0.4
      - loguru==0.7.3
      - markdown-it-py==3.0.0
      - markupsafe==3.0.2
      - matplotlib==3.10.1
      - mdurl==0.1.2
      - mmengine==0.10.6
      - modelscope==1.25.0
      - mpi4py-mpich==3.1.5
      - mpmath==1.3.0
      - msgpack==1.1.0
      - multidict==6.3.2
      - multiprocess==0.70.16
      - networkx==3.4.2
      - ninja==1.11.1.4
      - numpy==2.2.4
      - nvidia-cublas-cu12==12.4.5.8
      - nvidia-cuda-cupti-cu12==12.4.127
      - nvidia-cuda-nvrtc-cu12==12.4.127
      - nvidia-cuda-runtime-cu12==12.4.127
      - nvidia-cudnn-cu12==9.1.0.70
      - nvidia-cufft-cu12==11.2.1.3
      - nvidia-curand-cu12==10.3.5.147
      - nvidia-cusolver-cu12==11.6.1.9
      - nvidia-cusparse-cu12==12.3.1.170
      - nvidia-nccl-cu12==2.21.5
      - nvidia-nvjitlink-cu12==12.4.127
      - nvidia-nvtx-cu12==12.4.127
      - opencv-python==4.11.0.86
      - openpyxl==3.1.5
      - packaging==24.2
      - pandas==2.2.3
      - peft==0.15.1
      - pillow==11.1.0
      - platformdirs==4.3.7
      - propcache==0.3.1
      - psutil==7.0.0
      - py-cpuinfo==9.0.0
      - pyarrow==19.0.1
      - pydantic==2.11.2
      - pydantic-core==2.33.1
      - pygments==2.19.1
      - pyparsing==3.2.3
      - python-dateutil==2.9.0.post0
      - pytz==2025.2
      - pyyaml==6.0.2
      - regex==2024.11.6
      - requests==2.32.3
      - rich==14.0.0
      - safetensors==0.5.3
      - scikit-image==0.25.2
      - scipy==1.15.2
      - sentencepiece==0.2.0
      - six==1.17.0
      - sympy==1.13.1
      - termcolor==3.0.1
      - tifffile==2025.3.30
      - tiktoken==0.9.0
      - tokenizers==0.21.1
      - tomli==2.2.1
      - torch==2.5.1
      - torchvision==0.20.1
      - tqdm==4.67.1
      - transformers==4.48.0
      - transformers-stream-generator==0.0.5
      - triton==3.1.0
      - typing-extensions==4.13.1
      - typing-inspection==0.4.0
      - tzdata==2025.2
      - urllib3==2.3.0
      - xxhash==3.5.0
      - yapf==0.43.0
      - yarl==1.18.3
prefix: /root/miniconda3/envs/xtuner-env

评测模型的工具：

OpenCompass：

官方：https://doc.opencompass.org.cn/get_started/installation.html

中文：https://opencompass.readthedocs.io/zh-cn/latest/get_started/installation.html

评估一个模型一般要评估两个数据集：

一、开源的数据集评估（评估通用能力）

二、自定义数据集评估（评估定制化能力）

配置环境：

复制代码

本文用的 0.4.2

conda create --name opencompass python=3.10 -y
# conda create --name opencompass_lmdeploy python=3.10 -y

conda activate opencompass

git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .

下载数据集：
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

把数据集放在代码的data目录下
（数据解压就是data文件夹）

environment.yml

复制代码

name: opencompass
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - _openmp_mutex=5.1=1_gnu
  - bzip2=1.0.8=h5eee18b_6
  - ca-certificates=2025.2.25=h06a4308_0
  - ld_impl_linux-64=2.40=h12ee557_0
  - libffi=3.4.4=h6a678d5_1
  - libgcc-ng=11.2.0=h1234567_1
  - libgomp=11.2.0=h1234567_1
  - libstdcxx-ng=11.2.0=h1234567_1
  - libuuid=1.41.5=h5eee18b_0
  - ncurses=6.4=h6a678d5_0
  - openssl=3.0.16=h5eee18b_0
  - pip=25.0=py310h06a4308_0
  - python=3.10.16=he870216_1
  - readline=8.2=h5eee18b_0
  - setuptools=75.8.0=py310h06a4308_0
  - sqlite=3.45.3=h5eee18b_0
  - tk=8.6.14=h39e8969_0
  - tzdata=2025a=h04d1e81_0
  - wheel=0.45.1=py310h06a4308_0
  - xz=5.6.4=h5eee18b_1
  - zlib=1.2.13=h5eee18b_1
  - pip:
      - absl-py==2.2.2
      - accelerate==1.6.0
      - addict==2.4.0
      - aiohappyeyeballs==2.6.1
      - aiohttp==3.11.16
      - aiosignal==1.3.2
      - annotated-types==0.7.0
      - anyio==4.9.0
      - async-timeout==5.0.1
      - attrs==25.3.0
      - certifi==2025.1.31
      - charset-normalizer==3.4.1
      - click==8.1.8
      - colorama==0.4.6
      - contourpy==1.3.2
      - cpm-kernels==1.0.11
      - cycler==0.12.1
      - datasets==3.5.0
      - dill==0.3.8
      - distro==1.9.0
      - einops==0.8.1
      - evaluate==0.4.3
      - exceptiongroup==1.2.2
      - filelock==3.18.0
      - fonttools==4.57.0
      - frozenlist==1.6.0
      - fsspec==2024.12.0
      - func-timeout==4.3.5
      - fuzzywuzzy==0.18.0
      - gradio-client==1.8.0
      - h11==0.14.0
      - h5py==3.13.0
      - httpcore==1.0.8
      - httpx==0.27.2
      - huggingface-hub==0.30.2
      - idna==3.10
      - immutabledict==4.2.1
      - importlib-metadata==8.6.1
      - jieba==0.42.1
      - jinja2==3.1.6
      - jiter==0.9.0
      - joblib==1.4.2
      - json5==0.12.0
      - jsonlines==4.0.0
      - kiwisolver==1.4.8
      - levenshtein==0.27.1
      - lxml==5.3.2
      - markdown-it-py==3.0.0
      - markupsafe==3.0.2
      - matplotlib==3.10.1
      - mdurl==0.1.2
      - mmengine-lite==0.10.7
      - mpmath==1.3.0
      - multidict==6.4.3
      - multiprocess==0.70.16
      - networkx==3.4.2
      - nltk==3.9.1
      - numpy==1.26.4
      - nvidia-cublas-cu12==12.4.5.8
      - nvidia-cuda-cupti-cu12==12.4.127
      - nvidia-cuda-nvrtc-cu12==12.4.127
      - nvidia-cuda-runtime-cu12==12.4.127
      - nvidia-cudnn-cu12==9.1.0.70
      - nvidia-cufft-cu12==11.2.1.3
      - nvidia-curand-cu12==10.3.5.147
      - nvidia-cusolver-cu12==11.6.1.9
      - nvidia-cusparse-cu12==12.3.1.170
      - nvidia-cusparselt-cu12==0.6.2
      - nvidia-ml-py==12.570.86
      - nvidia-nccl-cu12==2.21.5
      - nvidia-nvjitlink-cu12==12.4.127
      - nvidia-nvtx-cu12==12.4.127
      - nvitop==1.4.2
      - openai==1.75.0
      - opencc==1.1.9
      - opencv-python-headless==4.11.0.86
      - packaging==24.2
      - pandas==1.5.3
      - pillow==11.2.1
      - platformdirs==4.3.7
      - portalocker==3.1.1
      - prettytable==3.16.0
      - propcache==0.3.1
      - protobuf==6.30.2
      - psutil==7.0.0
      - pyarrow==19.0.1
      - pydantic==2.11.3
      - pydantic-core==2.33.1
      - pyext==0.7
      - pygments==2.19.1
      - pyparsing==3.2.3
      - python-dateutil==2.9.0.post0
      - python-levenshtein==0.27.1
      - pytz==2025.2
      - pyyaml==6.0.2
      - rank-bm25==0.2.2
      - rapidfuzz==3.13.0
      - regex==2024.11.6
      - requests==2.32.3
      - retrying==1.3.4
      - rich==14.0.0
      - rouge==1.0.1
      - rouge-chinese==1.0.3
      - rouge-score==0.1.2
      - sacrebleu==2.5.1
      - safetensors==0.5.3
      - scikit-learn==1.5.0
      - scipy==1.15.2
      - seaborn==0.13.2
      - sentence-transformers==4.1.0
      - shellingham==1.5.4
      - six==1.17.0
      - sniffio==1.3.1
      - sympy==1.13.1
      - tabulate==0.9.0
      - termcolor==3.0.1
      - threadpoolctl==3.6.0
      - tiktoken==0.9.0
      - timeout-decorator==0.5.0
      - tokenizers==0.21.1
      - tomli==2.2.1
      - torch==2.6.0
      - tqdm==4.67.1
      - transformers==4.51.3
      - tree-sitter==0.21.3
      - tree-sitter-languages==1.10.2
      - triton==3.2.0
      - typer==0.15.2
      - typing-extensions==4.13.2
      - typing-inspection==0.4.0
      - urllib3==2.4.0
      - wcwidth==0.2.13
      - websockets==15.0.1
      - xxhash==3.5.0
      - yapf==0.43.0
      - yarl==1.20.0
      - zipp==3.21.0
prefix: /root/autodl-tmp/conda/envs/opencompass

数据集评估：

数据集分类

复制代码

_gen后缀数据集：生成式评估，需后处理提取答案（如ceval_gen）

_ppl后缀数据集：困惑度评估，直接比对选项概率（如ceval_ppl）

C-Eval：侧重中文STEM和社会科学知识，包含1.3万道选择题

LawBench：法律领域专项评估，需额外克隆仓库并配置路径


评估一个模型一般要评估两个数据集：
一、开源的数据集评估（评估通用能力）
二、自定义数据集评估（评估定制化能力）

1. 主流开源数据集
OpenCompass内置超过70个数据集，覆盖五大能力维度：

知识类：C-Eval（中文考试题）、CMMLU（多语言知识问答）、MMLU（英文多选题）。

推理类：GSM8K（数学推理）、BBH（复杂推理链）。

语言类：CLUE（中文理解）、AFQMC（语义相似度）。

代码类：HumanEval（代码生成）、MBPP（编程问题）。

多模态类：MMBench（图像理解）、SEED-Bench（多模态问答）

2. 自定义数据集
我们支持 .jsonl 和 .csv 两种格式的数据集。
2.1 选择题 (mcq)
对于选择 (mcq) 类型的数据，默认的字段如下：
question: 表示选择题的题干
A, B, C, ...: 使用单个大写字母表示选项，个数不限定。默认只会从 A 开始，解析连续的字母作为选项。
answer: 表示选择题的正确答案，其值必须是上述所选用的选项之一，如 A, B, C 等。
对于非默认字段，我们都会进行读入，但默认不会使用。如需使用，则需要在 .meta.json 文件中进行指定。

.jsonl 格式样例如下：

{"question": "165+833+650+615=", "A": "2258", "B": "2263", "C": "2281", "answer": "B"}
{"question": "368+959+918+653+978=", "A": "3876", "B": "3878", "C": "3880", "answer": "A"}
{"question": "776+208+589+882+571+996+515+726=", "A": "5213", "B": "5263", "C": "5383", "answer": "B"}
{"question": "803+862+815+100+409+758+262+169=", "A": "4098", "B": "4128", "C": "4178", "answer": "C"}

.csv 格式样例如下:
question,A,B,C,answer
127+545+588+620+556+199=,2632,2635,2645,B
735+603+102+335+605=,2376,2380,2410,B
506+346+920+451+910+142+659+850=,4766,4774,4784,C
504+811+870+445=,2615,2630,2750,B

2.2问答题 (qa)
对于问答 (qa) 类型的数据，默认的字段如下：
question: 表示问答题的题干
answer: 表示问答题的正确答案。可缺失，表示该数据集无正确答案。
对于非默认字段，我们都会进行读入，但默认不会使用。如需使用，则需要在 .meta.json 文件中进行指定。

.jsonl 格式样例如下：
{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}

.csv 格式样例如下：
question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170

评估命令：

复制代码

评估本地的hf格式大模型：
参数解释： 

--datasets： 
评估所用数据集（数据集配置在框架系统中，可以使用
# 列出与llama和mmlu相关的所有配置
python tools/list_configs.py llama mmlu
来查看）

--hf-type：模型属于什么类型 一般模型名字后面由chat就填chat，没有写base或者不传这个参数 
--hf-path：模型路径
--debug：捕获异常并提供详细信息

方法一：命令行（只能评估一个模型！！！！！！！！！！！！！！！！！！！！！！）
python run.py \
    --datasets demo_gsm8k_chat_gen demo_math_chat_gen \
    --hf-type chat \
    --hf-path internlm/internlm2-chat-1_8b \
    --debug
    --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
    
方法二：命令行+配置文件（多模型！！！！！！！！！！！！！！！！！！！！！！！）
--models：后面跟的模型名称，对应的配置文件目录在：opencompass/openconpass/configs/models/qwen2.5 去找模型。
模型名称解析：
hf前缀代表是huggingface评估方法 
找到你要的py文件：
例如：hf_qwen1_5_0_5b_chat.py，然后修改 path换成绝对路径

run_cfg=dict(num_gpus=1)评估用的哪一块gpu，电脑上只有一块的写成0

from opencompass.models import HuggingFacewithChatTemplate

models = [
    dict(
        type=HuggingFacewithChatTemplate,
        abbr='qwen1.5-0.5b-chat-hf',
        path='Qwen/Qwen1.5-0.5B-Chat',
        max_out_len=1024,
        batch_size=8,
        run_cfg=dict(num_gpus=0),
        stop_words=['<|im_end|>', '<|im_start|>'],
    )
]


注意：可以使用  python tools/list_configs.py hf_qwen 来查看模型名称，即跟在--models后面的参数

python run.py \
    --models hf_internlm2_chat_1_8b hf_qwen2_1_5b_instruct \
    --datasets demo_gsm8k_chat_gen demo_math_chat_gen \
    --debug
    --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model

评估加速：

复制代码

1. pip install lmdeploy

2. 在config/models/下寻找 lmdeploy开头的py文件
2.1 修改path：
2.2 参数解释
engine_config=dict(session_len=16384, max_batch_size=16, tp=1),

tp：产生的结果用对应序号的gpu来评估。

from opencompass.models import TurboMindModelwithChatTemplate

models = [
    dict(
        type=TurboMindModelwithChatTemplate,
        abbr='qwen1.5-1.8b-chat-turbomind',
        path='Qwen/Qwen1.5-1.8B-Chat',
        engine_config=dict(session_len=16384, max_batch_size=16, tp=1),
        gen_config=dict(top_k=1, temperature=1e-6, top_p=0.9, max_new_tokens=4096),
        max_seq_len=16384, 
        max_out_len=4096,
        batch_size=16,
        run_cfg=dict(num_gpus=1),
        stop_words=['<|im_end|>', '<|im_start|>'],
    )
]
3. 和上面一样 model填写你修改的配置文件地址

python run.py \
    --models lmdeploy_xxxxx \
    --datasets demo_gsm8k_chat_gen demo_math_chat_gen \
    --debug
    --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model

自定义数据及评估：

复制代码

自定义数据集
我们支持 .jsonl 和 .csv 两种格式的数据集。
2.1 选择题 (mcq)
对于选择 (mcq) 类型的数据，默认的字段如下：
question: 表示选择题的题干
A, B, C, ...: 使用单个大写字母表示选项，个数不限定。默认只会从 A 开始，解析连续的字母作为选项。
answer: 表示选择题的正确答案，其值必须是上述所选用的选项之一，如 A, B, C 等。
对于非默认字段，我们都会进行读入，但默认不会使用。如需使用，则需要在 .meta.json 文件中进行指定。

.jsonl 格式样例如下：

{"question": "165+833+650+615=", "A": "2258", "B": "2263", "C": "2281", "answer": "B"}
{"question": "368+959+918+653+978=", "A": "3876", "B": "3878", "C": "3880", "answer": "A"}
{"question": "776+208+589+882+571+996+515+726=", "A": "5213", "B": "5263", "C": "5383", "answer": "B"}
{"question": "803+862+815+100+409+758+262+169=", "A": "4098", "B": "4128", "C": "4178", "answer": "C"}

.csv 格式样例如下:
question,A,B,C,answer
127+545+588+620+556+199=,2632,2635,2645,B
735+603+102+335+605=,2376,2380,2410,B
506+346+920+451+910+142+659+850=,4766,4774,4784,C
504+811+870+445=,2615,2630,2750,B

2.2问答题 (qa)
对于问答 (qa) 类型的数据，默认的字段如下：
question: 表示问答题的题干
answer: 表示问答题的正确答案。可缺失，表示该数据集无正确答案。
对于非默认字段，我们都会进行读入，但默认不会使用。如需使用，则需要在 .meta.json 文件中进行指定。

.jsonl 格式样例如下：
{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}

.csv 格式样例如下：
question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170

参数解析：
--custom-dataset-data-type qa 或者mcp
--hf-path：模型绝对路径

方法一（简化）：
python run.py \
    --hf-path internlm/internlm2-chat-1_8b \
    --custom-dataset-path xxx/test_qa.jsonl \
方法二（全一点）：
python run.py \
    --hf-path internlm/internlm2-chat-1_8b \
    --custom-dataset-path xxx/test_qa.jsonl \
    --custom-dataset-data-type qa \
    --custom-dataset-infer-method gen

前端框架:

openwebui

复制代码

地址：
https://github.com/open-webui/open-webui
安装：
conda create -n openwebui python=3.11 -y
conda activate openwebui
pip install -U open-webui torch transformers -i https://pypi.mirrors.ustc.edu.cn/simple/
运行：
ubuntu：
conda activate open-webui
export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=True
export OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
open-webui serve --port 8080

windows：(!!!记得写成bat文件)
set HF_ENDPOINT=https://hf-mirror.com
set ENABLE_OLLAMA_API=False
set OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
open-webui serve --port 8080

bat：
@echo off
REM 设置环境变量
set HF_ENDPOINT=https://hf-mirror.com
set ENABLE_OLLAMA_API=False
set OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1

REM 激活 Conda 环境
call conda activate open-webui

REM 启动 OpenWebUI 服务
open-webui serve --port 8080

大模型转gguf:

llama.cpp:

复制代码

下载：

git clone https://github.com/ggerganov/llama.cpp.git
安装依赖：

conda create -n llama_cpp python=3.10 -y
conda activate llama_cpp
pip install -r requirements.txt

运行脚本：

# 如果不量化，保留模型的效果

python convert_hf_to_gguf.py /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss  --outtype f16 --verbose --outfile /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss-gguf.gguf
# 如果需要量化（加速并有损效果），直接执行下面脚本就可以

python convert_hf_to_gguf.py /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss  --outtype q8_0 --verbose --outfile /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss-gguf_q8_0.gguf

这里--outtype是输出类型，代表含义：
q2_k：特定张量（Tensor）采用较高的精度设置，而其他的则保持基础级别。
q3_k_l、q3_k_m、q3_k_s：这些变体在不同张量上使用不同级别的精度，从而达到性能和效率的平衡。
q4_0：这是最初的量化方案，使用 4 位精度。
q4_1 和 q4_k_m、q4_k_s：这些提供了不同程度的准确性和推理速度，适合需要平衡资源使用的场景。
q5_0、q5_1、q5_k_m、q5_k_s：这些版本在保证更高准确度的同时，会使用更多的资源并且推理速度较
慢。
q6_k 和 q8_0：这些提供了最高的精度，但是因为高资源消耗和慢速度，可能不适合所有用户。
fp16 和 f32: 不量化，保留原始精度。

environment.yml

复制代码

name: llama_cpp
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
dependencies:
  - _libgcc_mutex=0.1=main
  - _openmp_mutex=5.1=1_gnu
  - bzip2=1.0.8=h5eee18b_6
  - ca-certificates=2025.2.25=h06a4308_0
  - ld_impl_linux-64=2.40=h12ee557_0
  - libffi=3.4.4=h6a678d5_1
  - libgcc-ng=11.2.0=h1234567_1
  - libgomp=11.2.0=h1234567_1
  - libstdcxx-ng=11.2.0=h1234567_1
  - libuuid=1.41.5=h5eee18b_0
  - ncurses=6.4=h6a678d5_0
  - openssl=3.0.16=h5eee18b_0
  - pip=25.0=py310h06a4308_0
  - python=3.10.16=he870216_1
  - readline=8.2=h5eee18b_0
  - setuptools=75.8.0=py310h06a4308_0
  - sqlite=3.45.3=h5eee18b_0
  - tk=8.6.14=h39e8969_0
  - wheel=0.45.1=py310h06a4308_0
  - xz=5.6.4=h5eee18b_1
  - zlib=1.2.13=h5eee18b_1
  - pip:
      - aiohttp==3.9.5
      - aiosignal==1.3.2
      - annotated-types==0.7.0
      - anyio==4.9.0
      - async-timeout==4.0.3
      - attrs==25.3.0
      - certifi==2025.1.31
      - charset-normalizer==3.4.1
      - click==8.1.8
      - contourpy==1.3.1
      - cycler==0.12.1
      - distro==1.9.0
      - exceptiongroup==1.2.2
      - filelock==3.18.0
      - fonttools==4.56.0
      - frozenlist==1.5.0
      - fsspec==2025.3.0
      - gguf==0.14.0
      - h11==0.14.0
      - httpcore==1.0.7
      - httpx==0.28.1
      - huggingface-hub==0.23.5
      - idna==3.10
      - iniconfig==2.1.0
      - jinja2==3.1.6
      - jiter==0.9.0
      - kiwisolver==1.4.8
      - markdown-it-py==3.0.0
      - markupsafe==3.0.2
      - matplotlib==3.10.1
      - mdurl==0.1.2
      - mpmath==1.3.0
      - multidict==6.2.0
      - networkx==3.4.2
      - numpy==1.26.4
      - openai==1.55.3
      - packaging==24.2
      - pandas==2.2.3
      - pillow==11.1.0
      - pluggy==1.5.0
      - prometheus-client==0.20.0
      - propcache==0.3.1
      - protobuf==4.25.6
      - pydantic==2.11.1
      - pydantic-core==2.33.0
      - pygments==2.19.1
      - pyparsing==3.2.3
      - pytest==8.3.5
      - python-dateutil==2.9.0.post0
      - pytz==2025.2
      - pyyaml==6.0.2
      - regex==2024.11.6
      - requests==2.32.3
      - rich==13.9.4
      - safetensors==0.5.3
      - seaborn==0.13.2
      - sentencepiece==0.2.0
      - shellingham==1.5.4
      - six==1.17.0
      - sniffio==1.3.1
      - sympy==1.13.3
      - tokenizers==0.20.3
      - tomli==2.2.1
      - torch==2.2.2+cpu
      - tqdm==4.67.1
      - transformers==4.46.3
      - typer==0.15.2
      - typing-extensions==4.13.0
      - typing-inspection==0.4.0
      - tzdata==2025.2
      - urllib3==2.3.0
      - wget==3.2
      - yarl==1.18.3
prefix: /root/miniconda3/envs/llama_cpp

分布式微调

DeepSpeed:

显存优化器

用时间换空间

支持huggingface pytorch transformers

核心技术：zero，梯度检查点：cpu offloading、混合精度训练自适应选择最佳通信策略

ZeRO优化器：

阶段划分：

ZeRO-1：优化器状态分片。每张卡上面仍然有完整模型，优化器反向传播的时候只更新一部分参数

ZeRO-2：梯度（模型反向传播）分片

ZeRO-3：参数（模型正向传播）+梯度+优化器状态

总结：

zero3显存占用率会下降到1/n n为显卡数量（跟显卡架构有关）
支持json配置
支持千卡集群训练

用途：训练千亿参数、资源受限、快速实践如微调(一般7b就用）

安装及配置

复制代码

安装：
pip install deepspeed
配置
llamafactory：
none-1
2 -zero2
3 -zero3
多机多卡、单机多卡：
见llamafactory下的分布式训练

xtuner：
NPROC_PER_NODE=${GPU_NUM} xtuner train ./config.py --deepspeed deepspeed_zero2

评测模型的工具：

OpenCompass：

文本生成模型用的相似度评估

地址：欢迎来到 OpenCompass 中文教程！ --- OpenCompass 0.4.1 文档

解压操作：

tar -xvf LLaMaFactory.tar

常见的模型：

生成式模型汇总！一文带你从隐变量模型到 VAE, GAN, Flow 到 Diffusion Model 全懂完（）

博客：https://zhuanlan.zhihu.com/p/721196823

RNN：

服务器：

https://www.autodl.com/home

ftp x-shell

传输文件

nohup

后台登陆

nvitop：

使用nvitop来监控 NVIDIA GPU 的使用情况-CSDN博客

大模型理论知识：

transformer:

视频：

2、语言词袋_哔哩哔哩_bilibili

博客：

Transformer_transformeryuanlunwen-CSDN博客

模型压缩：

把ai模型之中的参数变少或者变小，最早做边缘部署的。主要想解决模型部署问题，主要可以划分为如下几种方法：

剪枝：

简化模型的结构。

**非结构化剪枝：**层数不变，减少某一层的参数。现在不适用因为大模型结果取决于一些核心的网络参数，结果不可控。依赖于特定硬件的平台或者算法库

**结构化剪枝：**减少某一些层数，破坏原有结构。精度比较低，不依赖于硬件平台。

局部、全局剪枝：

通常思路：先见0.2重新训练还行，再减0.2继续重新训练

量化：

训练量化，推理量化。原先是32位的现在一般是16位，现在特指8位和4位

训练量化：模型训练时加载模型，分为两部分，一部分参与训练的升到32位。不参预训练的用8位保存。

推理量化：大部分模型参数用8位保存，关键的激活函数用的32位保存

知识蒸馏:

原有一个训练好的大模型作为teacher network，新有一个参数小的模型作为student network。把以前的数据集同时给两个模型， teacher会得出一个接近正确的特征，把student的结果和teacher的结果做一个损失，加上原本的损失。损失权重一开始与teacher差别的权重比较大，自身学习的比较小，之后反过来，由T控制。

deepseek蒸馏的openai

分布式微调:

解决问题：大模型规模爆炸、训练加速。

使用deepspeed进行训练

数据并行：

原理：每个设备导入完整模型，最后汇合。

作用：加速训练，每个设备可以单独去跑。

24g显存 - 7b大模型

16g显存*（2or4） -7b大模型

缺点:通信开销大、显存占用率高（需要存储完整的模型和优化器）

模型并行：

通常需要同型号！！！

原理：将模型拆分到不同设备（一般是按层或张量拆分）：

作用：节约算力

横向拆分：按照层

竖向切分：按照张量。例如：Megation-LM将矩阵乘法分片

缺点：设备之间通信频繁，需要精细的负载均衡设计

流水线并行（Pipline Parallelism）：

原理：将模型按照层拆分成多个阶段，数据分块之后按照流水线执行。（简单来说模型和数据都拆分了）

优化：微批次减少流水线气泡。显存节约更好。

挑战：需平衡阶段划分，避免资源闲置。

混合并行（3D并行）：

把上面三个组合起来，训练千亿级规模的大模型。如：meta的llama-2

混合精度训练：

参预训练的32位，不参加的16位

学习问题汇总：

1 special------token原理