聊聊ChatGLM2-6B模型的微调

概述

GLM、ChatGLM的相关基础知识说明:

  1. GLM模型底层还是基于Transformer,因此其设计、优化都是围绕Transformer的各个组件的。从注意力层的掩码、位置编码等方面优化与设计。
  2. ChatGLM3/ChatGLM2的源码中,比如finetune、trainer等代码,其实是copy自HuggingFace,而且其使用流程与调用机制,与HuggingFace的开发流程是一致的。
  3. 对GLM-130B,ChatGLM千亿模型,ChatGLM-6B的区分不够清楚,这里给出说明:
    • GLM-130B:于2022年8月由清华智谱AI开源放出。该大语言模型基于之前提出的GLM(General Language Model),在Norm处理、激活函数、Mask机制等方面进行了调整,目的是训练出开源开放的高精度千亿中英双语稠密模型,能够让更多研发者用上千亿模型。
    • ChatGLM千亿模型: 该模型是为了解决大基座模型在复杂问题、动态知识、人类对齐场景的不足,基于GLM-130B,引入面向对话的用户反馈,进行指令微调后,得到的对话机器人。
    • ChatGLM-6B:于2023年3月开源。在进行ChatGLM千亿模型内测的同时,清华团队也开放出了同样技术小参数量的版本,方便研发者们进行学习和开发(非商用)。

ChatGLM对话模型的微调需要用到两个部分;一是已预训练的模型文件,二是ChatGLM的源码文件。

模型文件

Huggingface平台下载到本地或直接用远程的文件。

已预训练的模型,其开发调用模式遵循Huggingface的开发规范。

微调

在github上托管的ChatGLM源码包中,详细的介绍了基于p-tuning的微调策略

其源码模块中已经准备好了脚本文件 train.sh ,该文件包含所有相关的配置参数,根据微调后的配置调整脚本文件,一键运行即可。

微调并执行后,会保存并生成checkpoint-xxx文件。这就是新的权重超参数。

模型部署

有两种方式用来运行微调后的模型:

  1. 基于Huggingface的开发规范,将原模型超参数文件与微调后的超参数文件一起加载,并调用。
  2. 调整 web_demo.sh 文件中的路径配置,运行即可。

最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

相关推荐
数在表哥7 分钟前
从数据沼泽到智能决策:数据驱动与AI融合的中台建设方法论与技术实践指南(四)
大数据·人工智能
Web3&Basketball35 分钟前
Dify实战:调试技巧深度解析
人工智能
Brian Xia38 分钟前
# tchMaterial-parser 入门指南
python·ai
沃恩智慧42 分钟前
超越CNN和Transformer!Mamba结合多模态统领图像任务!
人工智能·cnn·transformer
RanceGru1 小时前
LLM学习笔记5——本地部署ComfyUI和Wan2.1-T2V-1.3B文生视频模型
笔记·学习·stable diffusion·transformer
MYZR11 小时前
手持终端的技术演进:从移动计算到智能物联
人工智能·智能家居·核心板·ssd2351
桂花饼1 小时前
Sora 2:当AI视频“以假乱真”,内容创作进入新纪元,体验AI创作能力
人工智能·aigc·多模态学习·ai视频生成·sora 2·视频生成api
x_lrong1 小时前
个人AI环境快速搭建
人工智能·笔记
陆业聪2 小时前
AI智能体的未来:从语言泛化到交互革命
人工智能·交互
siliconstorm.ai2 小时前
阿里下场造“机器人”:从通义千问到具身智能,中国AI正走向“实体化”阶段
人工智能·自然语言处理·chatgpt·机器人·云计算