大语言模型的三阶段训练

为了训练专有领域模型,选择LLaMA2-7B作为基座模型,由于LLaMA模型中文词表有限,因此首先进行中文词表的扩展,然后进行三阶段训练(增量预训练,有监督微调,强化学习)。

代码将全部上传到github:

https://github.com/hjandlm/LLM_Train

1. 中文词表扩展

原生词表大小是32K,在词表扩展后,词表大小是63608。

2. 增量预训练

为了防止模型的通用能力减弱或消失,将通用数据和领域数据混合,经过调研决定设置5:1的数据配比进行增量预训练。由于资源有限,显卡是一块A100,40G,因此训练较慢。

目前还处于预训练阶段,情况如下:

训练集损失曲线:

测试集损失曲线:

后续将继续研究如何"炼丹",敬请期待!

3. 有监督微调

...

4. 强化学习

...

相关推荐
云卓SKYDROID7 分钟前
无人机屏蔽与滤波技术模块运行方式概述!
人工智能·无人机·航电系统·科普·云卓科技
小oo呆18 分钟前
【自然语言处理与大模型】向量数据库技术
数据库·人工智能·自然语言处理
RuizhiHe19 分钟前
从零开始实现大语言模型(十五):并行计算与分布式机器学习
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
水花花花花花21 分钟前
NLP基础
人工智能·自然语言处理
Tiny番茄23 分钟前
Text models —— BERT,RoBERTa, BERTweet,LLama
人工智能·自然语言处理·bert
苹果企业签名分发28 分钟前
火山引擎AI大模型
人工智能
久邦科技31 分钟前
《Deepseek从入门到精通》清华大学中文pdf完整版
人工智能·深度学习·机器学习
来自于狂人39 分钟前
给大模型“贴膏药”:LoRA微调原理说明书
人工智能·深度学习·transformer
love530love1 小时前
【笔记】记一次PyCharm的问题反馈
ide·人工智能·windows·笔记·python·pycharm
说私域2 小时前
基于开源AI智能名片链动2+1模式S2B2C商城小程序源码的去中心化商业扩散研究
人工智能·小程序·开源·去中心化·零售