lora微调大语言模型(qwen1.5-chat)

本项目基于 Qwen1.5-Chat 模型,采用 LoRA(Low-Rank Adaptation)微调技术,以某部小说的文本为训练语料。通过微调,模型能够更好地学习并模仿小说主人公的语言风格、用词习惯和表达方式,从而在对话场景中呈现出贴近原著人物的说话风格。

代码已开源:

https://github.com/goldmorningsmart/Novel2Chat

项目目标是探索 大语言模型个性化定制 的可行性,展示如何利用 LoRA 高效地对大模型进行小规模训练,使其具备特定人物的语言特征,同时保持 Qwen1.5 原有的对话理解与生成能力。

应用场景包括:

  • 小说角色对话模拟
  • 互动式文学创作
  • 个性化聊天机器人
  • 文学 IP 的衍生应用

本项目是以学习探索大语言模型为目的创建的,你可以通过本项目学习,如何预处理数据集,如何建立标准的jsonl格式数据集,如何使用lora微调,如何合并模型,如何转换模型为gguf格式,如何量化模型,如何使用ollama运行微调后的模型

可以这样写一个更完整、条理清晰的 项目目的


项目目的

本项目以学习和探索 大语言模型(LLM)微调与部署流程 为主要目标。通过对 Qwen1.5-Chat 模型进行 LoRA 微调,可以在实践中学习以下内容:

  1. 数据预处理

    • 学习如何清洗和整理原始文本语料。
    • 构建标准化的 JSONL 格式数据集,并适配对话任务需求。
  2. 模型微调

    • 理解并应用 LoRA(Low-Rank Adaptation)技术,在有限算力下高效完成大模型的个性化微调。
    • 掌握训练参数设置与优化方法。
  3. 模型合并与转换

    • 学习如何将 LoRA 权重合并回基座模型,生成可独立使用的微调模型。
    • 将模型格式转换为 GGUF,以便在轻量化推理框架中运行。
  4. 模型量化

    • 理解不同量化策略(如 4-bit、8-bit)的原理和取舍。
    • 实践模型量化,显著降低显存占用并提升推理效率。
  5. 模型部署与应用

    • 使用 Ollama 等工具运行微调后的模型。
    • 探索大语言模型在 角色模拟、个性化对话 等方向的应用。

运行流程

推荐配置

  • RAM:32GB
  • GPU 显存:12GB(显存不足请使用更小模型)

数据集处理流程

  1. 分割

    • 将原始小说按 1000 字切分为多个片段。
    • 尽管大模型支持 8K+ token 输入,实测每次处理约 1K 效果更佳。
  2. 对话提取

    • 小说总字数约 300 万,直接使用在线 API 成本高(约 200 万 tokens,费用 15--30 元)。
    • 使用 Ollama 离线量化版 Qwen-14B-4bit(12GB 显存;显存不足可选 7B 版本)处理每个片段。
    • 输出 JSON 文件,每 30 个片段保存为一个 JSON 文件。
  3. 清洗与标准化

    • 由于离线 Qwen-14B 输出格式不完全规范,使用 Python 或在线 API 对 JSON 进行清洗。
    • 修复格式问题,保证 JSON 可解析。
  4. 合并为 JSONL

    • 将多个 JSON 文件合并为单行 JSONL 文件,确保可被 datasets 库加载。
  5. 数据扩展(可选)

    • 如对话样本较少,可调用在线 API 进行适度扩展。
    • ⚠️ 注意:可能引入噪声,影响数据集质量。

模型微调

  • 基座模型:Qwen-7B-Chat(需下载未量化版本,首次运行会自动从 Hugging Face Hub 下载)。
  • 使用 LoRA 技术 进行微调,并采用 4bit 量化加载
  • 显存需求约 11.2GB,不足时可选择更小模型。
  • 微调后获得具有 特定角色语言风格的模型。

模型合并与部署

  1. 合并模型

    • 将基础模型与 LoRA 权重合并,生成独立可用的微调模型。
    • ⚠️ 合并时 不能量化加载,否则后续转换会报错。
    • 若 GPU 显存不足,可使用 CPU + FP16 精度 ,约占用 20GB 内存
  2. 安装llama.cpp

    复制代码
    git clone https://github.com/ggerganov/llama.cpp.git
    cd llama.cpp
    make
  3. 格式转换

    • 使用 llama.cppconvert_hf_to_gguf.py 脚本,将模型转换为 GGUF 格式
    • 转换后模型可在 Ollama 或其他支持 GGUF 的推理框架中直接运行。

模型量化(可选)

  • 使用 llama-quantize 将 GGUF 模型进一步量化,降低显存占用:
复制代码
./llama-quantize \
    /path/to/input-model.gguf \
    /path/to/output-model-Q4_0.gguf \
    Q4_1
  • ⚠️ 版本注意事项

    • 量化工具随 llama.cpp master 分支 更新而变化,有些版本可能不支持 Q4_0 / Q4_1 4bit 量化。
    • 确保使用稳定版本,并先将模型转换为 GGUF 格式。
  • 量化后显存占用显著降低,但可能略微影响模型精度。

相关推荐
还是转转8 小时前
AI Code Review 工具
人工智能·代码复审
艾莉丝努力练剑8 小时前
【Git:多人协作】Git多人协作实战:从同分支到多分支工作流
服务器·c++·人工智能·git·gitee·centos·项目管理
拓端研究室11 小时前
专题:2025AI产业全景洞察报告:企业应用、技术突破与市场机遇|附920+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·pdf
lumi.12 小时前
Vue + Element Plus 实现AI文档解析与问答功能(含详细注释+核心逻辑解析)
前端·javascript·vue.js·人工智能
m0_6501082413 小时前
InstructBLIP:面向通用视觉语言模型的指令微调技术解析
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型
金融小师妹14 小时前
基于NLP语义解析的联储政策信号:强化学习框架下的12月降息概率回升动态建模
大数据·人工智能·深度学习·1024程序员节
AKAMAI15 小时前
提升 EdgeWorker 可观测性:使用 DataStream 设置日志功能
人工智能·云计算
银空飞羽16 小时前
让Trae CN SOLO自主发挥,看看能做出一个什么样的项目
前端·人工智能·trae
cg501716 小时前
基于 Bert 基本模型进行 Fine-tuned
人工智能·深度学习·bert
Dev7z16 小时前
基于Matlab图像处理的EAN条码自动识别系统设计与实现
图像处理·人工智能