大语言模型的三阶段训练

为了训练专有领域模型,选择LLaMA2-7B作为基座模型,由于LLaMA模型中文词表有限,因此首先进行中文词表的扩展,然后进行三阶段训练(增量预训练,有监督微调,强化学习)。

代码将全部上传到github:

https://github.com/hjandlm/LLM_Train

1. 中文词表扩展

原生词表大小是32K,在词表扩展后,词表大小是63608。

2. 增量预训练

为了防止模型的通用能力减弱或消失,将通用数据和领域数据混合,经过调研决定设置5:1的数据配比进行增量预训练。由于资源有限,显卡是一块A100,40G,因此训练较慢。

目前还处于预训练阶段,情况如下:

训练集损失曲线:

测试集损失曲线:

后续将继续研究如何"炼丹",敬请期待!

3. 有监督微调

...

4. 强化学习

...

相关推荐
可触的未来,发芽的智生4 分钟前
狂想:为AGI代称造字ta,《第三类智慧存在,神的赐名》
javascript·人工智能·python·神经网络·程序人生
莱茶荼菜7 分钟前
yolo26 阅读笔记
人工智能·笔记·深度学习·ai·yolo26
Dingdangcat8623 分钟前
【YOLOv8改进实战】使用Ghost模块优化P2结构提升涂胶缺陷检测精度_1
人工智能·yolo·目标跟踪
希艾席帝恩1 小时前
智慧城市建设中,数字孪生的价值在哪里?
人工智能·低代码·私有化部署·数字孪生·数字化转型
我的offer在哪里1 小时前
开源 AI 生成游戏平台:原理、开源项目与落地实战指南
人工智能·游戏·开源
qidun2101 小时前
埃夫特机器人防护服使用范围详解-避免十大应用误区
网络·人工智能
Σίσυφος19001 小时前
PCL Point-to-Point ICP详解
人工智能·算法
PaperRed ai写作降重助手2 小时前
AI 论文写作工具排名(实测不踩坑)
人工智能·aigc·ai写作·论文写作·智能降重·辅助写作·降重复率
ktoking2 小时前
Stock Agent AI 模型的选股器实现 [五]
人工智能·python
破烂pan2 小时前
大语言模型核心评测基准详解:从认知到实践
语言模型·模型评测